Начало работы с предварительно обученными языковыми моделями



  1. Seq2Seq-SC: системы сквозной семантической коммуникации с предварительно обученной языковой моделью (arXiv)

Автор:Джу-Хён Ли, Дон-Хо Ли, Ынсу Шин, Томас Чхве, Джей Пуджара, Джунхон Ким.

Аннотация: Хотя ожидается, что семантическая коммуникация обеспечит беспрецедентную эффективность коммуникации по сравнению с классической коммуникацией, необходимо решить множество проблем, чтобы реализовать ее потенциал. В этой работе мы предлагаем реалистичную семантическую сеть, названную seq2seq-SC, которая совместима с 5G NR и может работать с обобщенным набором текстовых данных с использованием предварительно обученной языковой модели. Мы также используем показатель производительности (SBERT), который может точно измерить семантическое сходство и показать, что seq2seq-SC обеспечивает превосходную производительность при извлечении семантически значимой информации.

2. Модель предобучающего языка маскирования, ориентированная на поиск, для поиска в плотных проходах(arXiv)

Автор: Дингкунь Лун, Яньчжао Чжан, Гуанвэй Сюй, Пэнцзюнь Се

Аннотация: было показано, что предварительно обученная языковая модель (PTM) дает мощные текстовые представления для задач поиска плотных отрывков. Моделирование маскированного языка (MLM) является основной подзадачей процесса предварительного обучения. Однако мы обнаружили, что обычная стратегия случайного маскирования имеет тенденцию выбирать большое количество токенов, которые имеют ограниченное влияние на задачу поиска отрывка (например, стоп-слова и знаки препинания). Заметив, что термин весовой коэффициент важности может предоставить ценную информацию для поиска прохода, мы предлагаем альтернативную стратегию маскирования, ориентированную на поиск (получившую название ПЗУ), в которой более важные токены будут иметь более высокую вероятность быть замаскированными, чтобы захватить эту простую, но важную информацию для облегчения процесс предварительной подготовки языковой модели. Примечательно, что предлагаемый новый метод маскировки токенов не изменит архитектуру и цель обучения оригинального PTM. Наши эксперименты подтверждают, что предлагаемое ПЗУ позволяет получать информацию о важности терминов, помогающую предварительному обучению языковой модели, что обеспечивает более высокую производительность при тестировании поиска с несколькими проходами.

3. Сжатие и устранение предвзятости предварительно обученных моделей визуального языка для визуальных ответов на вопросы(arXiv)

Автор:Цинь Си, Юаньсинь Лю, Чжэн Линь, Пэн Фу, Вэйпин Ван

Аннотация . Несмотря на превосходную производительность крупномасштабных предварительно обученных моделей зрительного языка (VLP) при выполнении обычных задач визуального ответа на вопросы, они по-прежнему страдают от двух проблем. Во-первых, VLP склонны полагаться на языковые предубеждения. в наборах данных и не могут быть обобщены на данные вне распространения (OOD). Во-вторых, они неэффективны с точки зрения использования памяти и вычислений. Хотя в решении обеих проблем был достигнут многообещающий прогресс, в большинстве существующих работ они решаются независимо друг от друга. Чтобы облегчить применение VLP к задачам VQA, необходимо совместно изучить сжатие VLP и надежность OOD, которые, однако, еще не исследованы. В этой статье мы исследуем, можно ли одновременно сжать и устранить смещение VLP путем поиска в разреженных и надежных подсетях. С этой целью мы проводим обширные эксперименты с LXMERT, репрезентативной VLP, в наборе данных OOD VQA-CP v2. Мы систематически изучаем конструкцию конвейера обучения и сжатия для поиска в подсетях, а также назначение разреженности различным модулям, специфичным для модальности. Наши результаты показывают, что действительно существуют разреженные и надежные подсети LXMERT, которые значительно превосходят полную модель (без устранения смещения) с гораздо меньшим количеством параметров. Эти подсети также превосходят текущие модели устранения смещения SoTA с сопоставимыми или меньшими параметрами. Мы опубликуем коды после публикации