заглушки Контролируемое и неконтролируемое обучение — Unite.AI
Свяжитесь с нами:
Мастер-класс по ИИ:

AI 101

Контролируемое и неконтролируемое обучение

mm
обновленный on

В машинном обучении большинство задач можно легко отнести к одному из двух классов: проблемы обучения с учителем или проблемы обучения без учителя. При обучении с учителем к данным добавляются метки или классы, тогда как в случае обучения без учителя данные не имеют меток. Давайте внимательно рассмотрим, почему это различие важно, и рассмотрим некоторые алгоритмы, связанные с каждым типом обучения.

Контролируемое и неконтролируемое обучение

Большинство задач машинного обучения относятся к области контролируемое обучение. В алгоритмах обучения с учителем отдельные экземпляры/точки данных в наборе данных имеют присвоенный им класс или метку. Это означает, что модель машинного обучения может научиться различать, какие функции коррелируют с данным классом, и что инженер по машинному обучению может проверить производительность модели, увидев, сколько экземпляров было правильно классифицировано. Алгоритмы классификации могут использоваться для выявления многих сложных шаблонов, если данные помечены соответствующими классами. Например, алгоритм машинного обучения может научиться отличать разных животных друг от друга на основе таких характеристик, как «усы», «хвост», «когти» и т. д.

В отличие от контролируемого обучения, неконтролируемое обучение включает в себя создание модели, способной извлекать шаблоны из немаркированных данных. Другими словами, компьютер анализирует входные признаки и определяет для себя наиболее важные признаки и закономерности. Неконтролируемое обучение пытается найти присущие сходства между различными экземплярами. Если алгоритм обучения с учителем стремится поместить точки данных в известные классы, алгоритмы обучения без учителя будут изучать функции, общие для экземпляров объекта, и помещать их в группы на основе этих функций, по существу создавая свои собственные классы.

Примерами алгоритмов обучения с учителем являются линейная регрессия, логистическая регрессия, K-ближайшие соседи, деревья решений и машины опорных векторов.

Между тем, некоторыми примерами алгоритмов обучения без учителя являются анализ основных компонентов и кластеризация K-средних.

Алгоритм контролируемого обучения

Линейная регрессия это алгоритм, который берет две функции и строит отношения между ними. Линейная регрессия используется для прогнозирования числовых значений по отношению к другим числовым переменным. Линейная регрессия имеет уравнение Y = a +bX, где b — наклон линии, а a — место, где y пересекает ось X.

Логистическая регрессия представляет собой алгоритм бинарной классификации. Алгоритм исследует взаимосвязь между числовыми признаками и находит вероятность того, что экземпляр может быть отнесен к одному из двух разных классов. Значения вероятности «сжимаются» либо до 0, либо до 1. Другими словами, высокие вероятности приближаются к 0.99, а слабые вероятности приближаются к 0.

K-Ближайшие соседи присваивает класс новым точкам данных на основе назначенных классов некоторого выбранного количества соседей в обучающем наборе. Количество соседей, рассматриваемых алгоритмом, важно, и слишком мало или слишком много соседей могут неправильно классифицировать точки.

Деревья решений представляют собой тип алгоритма классификации и регрессии. Дерево решений работает путем разделения набора данных на все меньшие и меньшие части до тех пор, пока подмножества не перестанут делиться дальше, и в результате образуется дерево с узлами и листьями. В узлах решения о точках данных принимаются с использованием различных критериев фильтрации, а в листьях — это экземпляры, которым присвоена некоторая метка (точка данных, которая была классифицирована). Алгоритмы дерева решений способны обрабатывать как числовые, так и категориальные данные. В дереве производится разделение по конкретным переменным/признакам.

Поддержка векторных машин представляют собой алгоритм классификации, который работает путем рисования гиперплоскостей или линий разделения между точками данных. Точки данных разделяются на классы в зависимости от того, на какой стороне гиперплоскости они находятся. Через плоскость можно нарисовать несколько гиперплоскостей, разделив набор данных на несколько классов. Классификатор попытается максимизировать расстояние между пикирующей гиперплоскостью и точками по обе стороны от плоскости, и чем больше расстояние между линией и точками, тем увереннее будет классификатор.

Алгоритмы обучения без учителя

Анализ главных компонентов это метод, используемый для уменьшения размерности, что означает, что размерность или сложность данных представлены более простым способом. Алгоритм анализа главных компонентов находит новые измерения для ортогональных данных. При уменьшении размерности данных дисперсия между данными должна быть максимально сохранена. На практике это означает, что он берет функции в наборе данных и преобразует их в меньшее количество функций, которые представляют большую часть данных.

Кластеризация K-сред — это алгоритм, который автоматически группирует точки данных в кластеры на основе схожих признаков. Шаблоны в наборе данных анализируются, и точки данных разбиваются на группы на основе этих шаблонов. По сути, K-means создает свои собственные классы из неразмеченных данных. Алгоритм K-Means работает, назначая центры кластерам или центроидам и перемещая центроиды до тех пор, пока не будет найдено оптимальное положение для центроидов. Оптимальным будет положение, при котором расстояние между центроидами и окружающими точками данных внутри класса будет минимальным. «K» в кластеризации K-средних означает, сколько центроидов было выбрано.

Обзор

В завершение давайте быстро пробежимся по ключевым различиям между контролируемое и неконтролируемое обучение.

Как мы уже обсуждали ранее, в задачах обучения с учителем входные данные помечены, а количество классов известно. Между тем, входные данные не помечены, а количество классов неизвестно в случаях обучения без учителя. Обучение без учителя, как правило, менее сложное в вычислительном отношении, тогда как обучение с учителем, как правило, более сложное в вычислительном отношении. В то время как результаты обучения с учителем, как правило, очень точны, результаты обучения без учителя, как правило, менее точны/умеренно точны.