Алгоритмы машинного обучения

– Краткий обзор

Что такое машинное обучение?

Артур Сэмюэл (1959): «Область исследования, которая дает компьютерам возможность учиться без явного программирования».

Том Митчел (1997): «Говорят, что компьютерная программа учится, если ее производительность при выполнении задачи T, измеряемая производительностью P, улучшается с опытом E».

Какие алгоритмы машинного обучения использовать?

Выбор правильного алгоритма машинного обучения зависит от нескольких факторов, включая размер данных, качество и характер данных. Выбор правильного алгоритма — это сочетание потребностей бизнеса, спецификаций, экспериментов и имеющегося времени. Здесь мы рассмотрим различные алгоритмы машинного обучения.

Существует четыре типа алгоритмов машинного обучения:

Контролируемое обучение
Полуконтролируемое обучение
Неконтролируемое обучение
Обучение с подкреплением

Обучение под наблюдением:

В обучении с учителем мы предоставляем известный набор данных, который включает в себя входные данные и желаемые выходные данные. Машина находит способ определить выходы при заданном наборе входов.

Типы контролируемых алгоритмов обучения:

А. Классификация. Этот алгоритм машинного обучения сделает вывод на основе наблюдаемых значений и определит, к какой категории относится новое наблюдение.

Вот различные алгоритмы классификации:

1. Логистическая регрессия. Логистическая регрессия используется для прогнозирования вероятности целевой переменной. Природа целевой или зависимой переменной дихотомична, что означает наличие только двух возможных классов (0 или 1).

Тип логистической регрессии:

а. Двоичный или биномиальный: зависимая переменная может иметь только два возможных типа (0 или 1).

б. Полиномиальная: Зависимая переменная может иметь три и более возможных неупорядоченных типа или типы, не имеющие количественного значения. Например, «Тип А», «Тип В» или «Тип С».

в. Порядковый: здесь зависимая переменная может иметь три или более возможных упорядоченных типов или типов, имеющих количественное значение. Например, размеры футболок: «маленький», «средний», «большой», «очень большой» и т. д.

2. Алгоритм наивного байесовского классификатора. Наивный байесовский классификатор основан на теореме Байеса и классифицирует каждое значение как независимое от любого другого значения. Это позволяет нам предсказать категорию на основе заданного набора функций с использованием вероятности.

3. Машина опорных векторов: SVM по существу фильтрует данные по категориям, что достигается за счет предоставления обучающих примеров, каждый набор которых помечен как принадлежащий к одной или другой из двух категорий. Затем алгоритм работает над построением модели, которая присваивает новые значения той или иной категории.

4. Деревья решений. Деревья решений можно использовать как для решения задач регрессии, так и для задач классификации. Это блок-схема, похожая на древовидную структуру, в которой используется метод ветвления для иллюстрации всех возможных результатов решения. Каждый узел в дереве представляет собой проверку определенной переменной, и каждая ветвь является результатом этой проверки.

5. Случайные леса: это ансамблевый метод обучения, объединяющий несколько алгоритмов для получения лучших результатов для классификации, регрессии и других задач.

6. Ближайшие соседи.Алгоритм K ближайших соседей оценивает, насколько вероятно, что точка данных является членом той или иной группы. По сути, он просматривает точки данных вокруг одной точки данных, чтобы определить, к какой группе она фактически принадлежит.

Б. Регрессия: регрессионный анализ состоит из набора методов машинного обучения, которые позволяют нам прогнозировать непрерывный результат переменной на основе значения одной или нескольких переменных-предикторов.

С. Прогнозирование: здесь мы делаем прогнозы на будущее на основе прошлых и настоящих данных.

Полуконтролируемое обучение:

Полууправляемое обучение — это подход к машинному обучению, который сочетает в себе небольшой объем размеченных данных с большим объемом неразмеченных данных во время обучения. Машина поймет и разработает алгоритм на основе данных с метками и попытается предсказать метки для новых данных.

Обучение без учителя:

Неконтролируемые алгоритмы машинного обучения выводят закономерности из набора данных без ссылки на известные или помеченные результаты. В отличие от обучения с учителем, обучение без учителя нельзя применить к регрессии или задаче классификации, поскольку у нас нет информации о выходных данных. Таким образом, неконтролируемое обучение используется для определения базовой модели данных.

Виды неконтролируемого обучения:

Кластеризация. Кластеризация – это разделение набора наблюдений на подмножества таким образом, чтобы наблюдения в одном кластере были одного типа.
K означает алгоритм кластеризации. Он используется для классификации неразмеченных данных, т. е. данных без определенных категорий или групп. Алгоритм работает, находя группы в данных, при этом количество групп представлено переменной K. Затем он работает итеративно, чтобы назначить каждую точку данных одной из K групп на основе предоставленных функций.

3. Сокращение измерений. Сокращение измерений уменьшает количество переменных, которые учитываются при поиске необходимой информации.

Обучение с подкреплением:

Обучение с подкреплением — это тип динамического программирования, который обучает алгоритмы с использованием системы вознаграждения и наказания. Алгоритм обучения с подкреплением, или агент, обучается, взаимодействуя с окружающей средой. Агент получает вознаграждение за правильное выполнение и штрафы за неправильное выполнение. Поэтому он учится на опыте и начинает адаптировать свою методологию в ответ на ситуацию для достижения наилучшего потенциального результата.

Искусственные нейронные сети (ИНС). Это вычислительные системы, вдохновленные биологическими нейронными сетями человека. ИНС основана на наборе связанных единиц или узлов, называемых искусственными нейронами, которые грубо моделируют нейроны в биологическом мозге. Каждое соединение, как и синапсы в биологическом мозге, может передавать сигнал другим нейронам. ИНС также учатся на примерах и опыте, и они чрезвычайно полезны для моделирования нелинейных отношений в многомерных данных или там, где трудно понять взаимосвязь между входными переменными.