Общие проблемы в ML все еще существуют

В то время как большие языковые модели (LLM) привлекли все внимание своими недавними улучшениями и очаровали нас своими многообещающими возможностями, фундаментальные проблемы ML все еще существуют, и их стоит пересмотреть. В этой статье мы углубимся в проблемы, с которыми все мы сталкиваемся, работая над проектами по науке о данных, вдохновленные книгой Шаблоны проектирования машинного обучения. Как бы ни было заманчиво произвести впечатление на заинтересованных лиц высшего звена новейшими гаджетами ИИ на следующем корпоративном мероприятии, вы можете сначала решить с ними следующие (менее привлекательные) задачи:

Качество данных
Воспроизводимость
Дрейф данных
Масштабируемость
Несогласованные цели

Качество данных

Чтобы предотвратить «мусор на входе, мусор на выходе», важно обеспечить точность, полноту, согласованность и своевременность данных.

Точные данные означают, что данные имеют правильные значения реального примера, который они представляют. На модели машинного обучения сильно влияют используемые данные. Очевидно, что более полные и надежные данные приведут к более надежной модели машинного обучения. Убедитесь, что метки наземной истины соответствуют функциям.

Завершить

Полнота данных означает, что набор данных включает всю необходимую и ожидаемую информацию без пропуска какого-либо класса или соответствующих точек данных. Неполные данные могут привести к ненадежным и необъективным прогнозам. Например, вы реализуете модель для обнаружения и классификации типа транспортного средства, и у вас есть 2 метки в наборе данных: хэтчбек и седан. Но конечные пользователи также должны загружать изображения внедорожников, не включенных в обучающий набор, поэтому ваша модель не сможет их правильно идентифицировать. Убедитесь, что данные обучения имеют различные точки данных каждой метки. В этом примере это будут фотографии, сделанные со всех возможных ракурсов для автомобилей хэтчбек, седан и внедорожник.

Постоянство

Непротиворечивые данные означают, что данные собираются и маркируются в соответствии со стандартным процессом без какой-либо предвзятости. Например, вы создаете набор данных для классификации тем отзывов клиентов, а метки — «качество продукта», «цена и ценность», «скидки и рекламные акции», «доставка и доставка» и «качество обслуживания клиентов». У вас могут быть некоторые разногласия, когда дело доходит до того, что люди присваивают метки каждому отзыву, некоторые могут подумать, что отзыв «отличный сайт для покупок, я получил свой заказ за 1 день» — это опыт работы с клиентами, в то время как другие думают, что это «отгрузка и доставка». ».

Своевременно

Своевременность означает, что данные актуальны и отражают текущее состояние информации. Устаревшие данные могут привести к неправильным прогнозам и неправильным выводам. Например, в базе данных клиентов история покупок должна включать самые последние обновления, чтобы предоставлять релевантные рекомендации по продуктам.

Воспроизводимость

Воспроизводимость в ML — это возможность воссоздать те же результаты из одного и того же эксперимента ML. Для ML это отличается от традиционного программирования. Например, функция Python, которая вычисляет сумму двух цифр, всегда будет давать один и тот же результат для заданных входных данных 2 и 3, то есть 5. Но в алгоритмах ML задействованы случайность и данные, что затрудняет воссоздание.

Важно реализовать воспроизводимые модели ML по нескольким причинам: проверка и проверка, сравнение и оценка, обнаружение ошибок и багов и т. д.

Для достижения воспроизводимости следующие компоненты следует считать одинаковыми:

Код и алгоритм
Тренировочные данные
Конфигурация случайности (например, должно быть установлено начальное значение, используемое в модели для случайности)
Среда и зависимости (библиотеки, требования как к среде обучения, так и к среде обслуживания должны быть четко определены)

Дрейф данных

Дрейф данных означает отклонение статистических характеристик обучающих данных и данных, используемых для вывода. Это приводит к несоответствию между данными обучения и логического вывода, что влияет на надежность моделей в производстве. Допустим, вы внедряете рекомендательную систему для клиентов в электронной коммерции и используете исторические данные. Со временем добавляются новые категории продуктов и меняется поведение клиентов. Модель, обученная на старых данных, больше не отражает текущее поведение клиентов.

Советы по предотвращению такого дрейфа:

Мониторинг входных данных, статистических свойств, распределений
Регулярно проводите переобучение модели машинного обучения, чтобы убедиться, что она адаптируется к распределению данных.
Создавайте надежные функции, которые меньше зависят от необработанных данных, вместо этого захватывая базовый шаблон.
Создайте цикл обратной связи от конечных пользователей, чтобы получить представление о производительности модели.

Масштабируемость

Масштабирование в ML означает адаптацию текущего решения к изменениям под разными углами, которые могут быть связаны с увеличением объема данных, увеличением сложности модели или увеличением потребности в базовых ресурсах для обслуживания. Часто ожидается, что инженеры машинного обучения решат проблемы и решат, что необходимо для масштабирования.

Для обработки больших наборов данных можно использовать распределенные системы хранения и эффективные методы предварительной обработки.

Когда сложность модели увеличивается, например, вы развертываете алгоритм совместной фильтрации для системы рекомендаций, а позже ваши данные становятся больше, и вы решаете использовать модель глубокого обучения, распределенные вычислительные ресурсы (GPU) или распределенные кластеры, которые могут потребоваться для ускорения обучения. и вывод.

Чтобы справиться с возросшим спросом на прогнозы в реальном времени, предположим, вы решили масштабировать свою модель рекомендаций в реальном времени со 100 000 клиентов до 1 миллиона, масштабируемую инфраструктуру (облачные службы или бессерверный подход), балансировку нагрузки, распределение входящих выводов и кэширование часто запрашиваемые данные являются распространенными методами для применения.

Несогласованные цели

В проекте по науке о данных важно согласовать цели всех вовлеченных команд. То, чего стремятся достичь специалисты по данным, может не совпадать с тем, что ожидают получить заинтересованные стороны бизнеса. Например, вы создаете модель классификатора для определения оттока клиентов (0: маловероятно отток, 1: отток скорее всего) и предоставляете соответствующие рекламные акции тем, кто, скорее всего, уйдет. Как специалист по данным, вашей целью будет достижение наивысшего показателя f1 для повышения точности, в то время как бизнес не хочет рисков и, следовательно, не захочет стимулировать всех клиентов, которые могут уйти. Это было бы слишком большой сетью, что, возможно, привело бы к огромным затратам на стимулирование и, в конечном итоге, к низкой рентабельности инвестиций. Таким образом, наиболее эффективная модель с точки зрения науки о данных не должна быть целью сама по себе. Для достижения бизнес-целей могут потребоваться некоторые дополнительные бизнес-правила или даже метрика оценки пользовательской модели.

Чтобы избежать несоответствий позже в процессе, обязательно установите четкую цель проекта с заинтересованными сторонами до начала разработки и определите ключевые результаты и ключевые показатели эффективности.

Спасибо, что прочитали нашу статью, мы приветствуем обратную связь в комментариях ниже! Чтобы узнать больше о различных типах контента, следите за нами в Marvelous MLOps Substack и следите за нами в LinkedIn.