Как работает адаптивный пул, часть 2 (машинное обучение)

Эффективное обучение представлению с помощью адаптивного объединения контекстов (arXiv)

Автор: Чен Хуан, Уолтер Тэлботт, Навдип Джайтли, Джош Сасскинд.

Аннотация: Механизмы внутреннего внимания моделируют дальний контекст, используя попарное внимание между всеми входными токенами. При этом они предполагают фиксированную степень детализации внимания, определяемую отдельными маркерами (например, текстовыми символами или пикселями изображения), что может быть неоптимальным для моделирования сложных зависимостей на более высоких уровнях. В этой статье мы предлагаем ContextPool для решения этой проблемы путем адаптации степени детализации внимания для каждого токена. Вдохновленные успехом ConvNet, которые сочетаются с объединением для захвата долгосрочных зависимостей, мы учимся объединять соседние функции для каждого токена перед вычислением внимания на данном уровне внимания. Вес объединения и размер поддержки определяются адаптивно, что позволяет объединенным функциям кодировать значимый контекст с различным масштабом. Мы показываем, что ContextPool делает модели внимания более выразительными, достигая высокой производительности часто с меньшим количеством слоев и, таким образом, значительно снижая затраты. Эксперименты подтверждают, что наш модуль ContextPool при подключении к моделям-трансформерам соответствует или превосходит современную производительность, используя меньше вычислений в нескольких тестах языков и изображений, превосходит последние работы с изученными размерами контекста или разреженными моделями внимания, а также применим. в ConvNets для эффективного изучения функций.

2.AdaPool: экспоненциальное адаптивное объединение для снижения дискретизации с сохранением информации (arXiv)

Автор: Александрос Стергиу, Рональд Поппе.

Аннотация: Слои пула являются важными строительными блоками сверточных нейронных сетей (CNN), чтобы уменьшить вычислительные затраты и увеличить восприимчивые поля для текущих сверточных операций. Их цель состоит в том, чтобы создавать тома с пониженной дискретизацией, которые очень похожи на входной том, но в идеале также эффективны с точки зрения вычислений и памяти. Выполнение обоих этих требований остается сложной задачей. С этой целью мы предлагаем адаптивный и экспоненциально взвешенный метод объединения: adaPool. Наш метод изучает региональное слияние двух наборов ядер объединения, которые основаны на показателе степени коэффициента Дайса-Соренсена и экспоненциальном максимуме соответственно. AdaPool улучшает сохранение деталей в ряде задач, включая классификацию изображений и видео и обнаружение объектов. Ключевым свойством adaPool является его двунаправленный характер. В отличие от обычных методов объединения, изученные веса также можно использовать для повышения дискретизации карт активации. Мы называем этот метод adaUnPool. Мы оцениваем adaUnPool по суперразрешению изображений и видео и интерполяции кадров. Для сравнения мы представляем Inter4K, новый высококачественный набор видеоданных с высокой частотой кадров. Наши эксперименты показывают, что adaPool систематически достигает лучших результатов по задачам и магистралям, в то же время внося незначительные дополнительные вычислительные затраты и затраты памяти.

Как работает адаптивный пул, часть 2 (машинное обучение)

Вопросы по теме