Как работают нейронные модели, часть 2 (машинное обучение)

Предиктивный запрос для моделей авторегрессионной нейронной последовательности(arXiv)

Автор: Алекс Бойд, Сэм Шоуолтер, Стефан Мандт, Падраик Смит.

Аннотация. При рассуждениях о последовательных событиях естественно ставить вероятностные вопросы, такие как «когда событие А произойдет в следующий раз» или «какова вероятность того, что А произойдет раньше В», с приложениями в таких областях, как пользовательское моделирование, медицина и финансы. Однако с переходом машинного обучения на нейронные авторегрессионные модели, такие как RNN и преобразователи, вероятностные запросы были в значительной степени ограничены простыми случаями, такими как прогнозирование следующего события. Частично это связано с тем, что будущие запросы предполагают маргинализацию на больших пространствах путей, что не так просто эффективно реализовать в таких моделях. В этой статье мы вводим общую типологию прогнозирующих запросов в нейронных авторегрессионных моделях последовательностей и показываем, что такие запросы могут быть систематически представлены наборами элементарных строительных блоков. Мы используем эту типологию для разработки новых методов оценки запросов, основанных на лучевом поиске, выборке по важности и гибридах. На четырех крупномасштабных наборах данных последовательностей из разных предметных областей, а также для языковой модели GPT-2 мы демонстрируем возможность сделать ответы на запросы удобными для произвольных запросов в экспоненциально больших пространствах прогнозируемых путей и находим четкие различия в стоимости. - компромиссы точности между методами поиска и выборки.

2. Привлечение внимания к исходному коду: эмпирическое исследование кода разработчика и NeuralModel(arXiv)

Автор: Маттео Палтенги, Рахул Пандита, Остин З. Хенли, Альберт Зиглер

Аннотация:высокая эффективность нейронных моделей кода, таких как OpenAI Codex и AlphaCode, предполагает возможности кодирования моделей, которые, по крайней мере, сопоставимы с возможностями человека. Однако в предыдущей работе эти модели использовались только для их необработанного завершения, игнорируя то, как рассуждения модели в форме весов внимания могут использоваться для других последующих задач. Игнорирование весов внимания означает отказ от значительной части того, что эти модели вычисляют при запросе. Чтобы извлечь больше пользы из знаний, заложенных в этих больших предварительно обученных моделях, в этой работе сравниваются несколько подходов к постобработке этих ценных весов внимания для поддержки исследования кода. В частности, мы сравниваем, в какой степени преобразованный сигнал внимания CodeGen, крупной и общедоступной предварительно обученной нейронной модели, согласуется с тем, как разработчики смотрят на код и исследуют его, отвечая на одни и те же осмысленные вопросы о коде. В основе нашей экспериментальной оценки мы собираем, вручную аннотируем и открываем исходный код нового набора данных для отслеживания взгляда, включающего 25 разработчиков, отвечающих на вопросы, связанные с кодом, в течение 92 сеансов. Мы эмпирически оцениваем пять эвристик, не зависящих от внимания, и десять подходов к постобработке сигнала внимания, основанных на внимании, в сравнении с нашей основной истиной разработчиков, исследующих код, включая новую концепцию последующего внимания, которая демонстрирует наивысшее согласие. Помимо набора данных и эмпирического исследования, мы также представляем новое практическое применение сигнала внимания предварительно обученных моделей с полностью аналитическими решениями, выходящее за рамки традиционного использования механизмов внимания нейронных моделей.

3. Нейронно-графические модели(arXiv)

Автор : Суровая Шривастава, Урсула Чаевская

Вывод. Графики распространены повсеместно и часто используются для понимания динамики системы. Вероятностные графические модели, включающие байесовские и марковские сети, а также графы условной независимости, являются одними из популярных методов представления графов. Они могут моделировать отношения между функциями (узлами) вместе с базовым распределением. Хотя теоретически эти модели могут представлять очень сложные функции зависимости, на практике часто делаются упрощающие предположения из-за вычислительных ограничений, связанных с операциями с графами. В этой работе представлены нейронные графические модели (NGM), которые пытаются представить сложные зависимости функций с разумными вычислительными затратами. В частности, учитывая граф взаимосвязей функций и соответствующие образцы, мы фиксируем структуру зависимостей между функциями вместе с их сложными функциональными представлениями, используя нейронные сети в качестве многозадачной среды обучения. Мы предоставляем эффективные алгоритмы обучения, вывода и выборки для NGM. Более того, NGM могут соответствовать общим структурам графов, включая ориентированные, неориентированные графы и графы со смешанными ребрами, а также поддерживать смешанные типы входных данных. Мы представляем эмпирические исследования, которые показывают способность NGM представлять графические модели Гаусса, анализ логических выводов данных о раке легких и извлечение информации из реальных данных о младенческой смертности, предоставленных CDC.

Как работают нейронные модели, часть 2 (машинное обучение)

Вопросы по теме