заглушки Что такое машинное обучение? - Unite.ИИ
Свяжитесь с нами:
Мастер-класс по ИИ:

AI 101

Что такое машинное обучение?

mm
обновленный on

Машинное обучение — одна из самых быстрорастущих технологических областей, но, несмотря на то, как часто используются слова «машинное обучение», может быть сложно понять, что именно такое машинное обучение.

Машинное обучение не относится к чему-то одному, это общий термин, который можно применять ко многим различным концепциям и методам. Понимание машинного обучения означает знакомство с различными формами анализа моделей, переменными и алгоритмами. Давайте внимательно рассмотрим машинное обучение, чтобы лучше понять, что оно включает в себя.

Что такое машинное обучение?

Хотя термин машинное обучение может применяться ко многим различным вещам, в целом этот термин относится к тому, чтобы позволить компьютеру выполнять задачи без получения явных построчных инструкций для этого. Специалисту по машинному обучению не нужно записывать все шаги, необходимые для решения проблемы, потому что компьютер способен «обучаться», анализируя закономерности в данных и обобщая эти закономерности на новые данные.

Системы машинного обучения состоят из трех основных частей:

  • входные
  • Алгоритмы
  • Выходы

Входные данные — это данные, которые подаются в систему машинного обучения, а входные данные можно разделить на метки и функции. Особенности — это релевантные переменные, переменные, которые будут проанализированы, чтобы изучить закономерности и сделать выводы. Между тем, метки — это классы/описания, данные отдельным экземплярам данных.

Функции и метки можно использовать в двух разных типах задач машинного обучения: обучение с учителем и обучение без учителя.

Неконтролируемое и контролируемое обучение

In контролируемое обучение, входные данные сопровождаются наземной истиной. Задачи контролируемого обучения имеют правильные выходные значения как часть набора данных, поэтому ожидаемые классы известны заранее. Это позволяет специалисту по данным проверить производительность алгоритма, проверив данные в тестовом наборе данных и увидев, какой процент элементов был правильно классифицирован.

В противоположность, неконтролируемое обучение проблемы не имеют прикрепленных к ним ярлыков истинности. Алгоритм машинного обучения, обученный выполнять задачи обучения без учителя, должен уметь самостоятельно выводить соответствующие закономерности в данных.

Алгоритмы контролируемого обучения обычно используются для задач классификации, когда имеется большой набор данных, заполненный экземплярами, которые необходимо отсортировать в один из множества различных классов. Другой тип обучения с учителем — это задача регрессии, в которой значение, выдаваемое алгоритмом, носит непрерывный характер, а не категориальное.

Между тем, алгоритмы обучения без учителя используются для таких задач, как оценка плотности, кластеризация и обучение представлению. Этим трем задачам требуется модель машинного обучения для определения структуры данных, для модели не заданы заранее определенные классы.

Давайте кратко рассмотрим некоторые из наиболее распространенных алгоритмов, используемых как в обучении без учителя, так и в обучении с учителем.

Типы контролируемого обучения

Общие алгоритмы контролируемого обучения включают в себя:

  • Наивный байесовский
  • Поддержка векторных машин
  • Логистическая регрессия
  • Случайные леса
  • Искусственные нейронные сети

Поддержка векторных машин — это алгоритмы, которые делят набор данных на разные классы. Точки данных группируются в кластеры путем рисования линий, отделяющих классы друг от друга. Точки, найденные на одной стороне линии, будут принадлежать к одному классу, а точки на другой стороне линии — к другому классу. Машины опорных векторов стремятся максимизировать расстояние между линией и точками, найденными по обе стороны от линии, и чем больше расстояние, тем увереннее классификатор в том, что точка принадлежит одному классу, а не другому классу.

Логистическая регрессия — это алгоритм, используемый в задачах бинарной классификации, когда точки данных необходимо классифицировать как принадлежащие к одному из двух классов. Логистическая регрессия работает, помечая точку данных либо 1, либо 0. Если воспринимаемая ценность точки данных составляет 0.49 или ниже, она классифицируется как 0, а если она равна 0.5 или выше, она классифицируется как 1.

Алгоритмы дерева решений работают, разделяя наборы данных на все более мелкие фрагменты. Точные критерии, используемые для разделения данных, зависят от инженера по машинному обучению, но цель состоит в том, чтобы в конечном итоге разделить данные на отдельные точки данных, которые затем будут классифицированы с использованием ключа.

Алгоритм случайного леса, по сути, представляет собой множество отдельных классификаторов дерева решений, связанных вместе в более мощный классификатор.

Ассоциация Наивный байесовский классификатор вычисляет вероятность того, что данная точка данных произошла, на основе вероятности возникновения предыдущего события. Он основан на теореме Байеса и распределяет точки данных по классам на основе их расчетной вероятности. При реализации классификатора Наивного Байеса предполагается, что все предикторы оказывают одинаковое влияние на результат класса.

An Искусственная нейронная сеть, или многослойный персептрон, — это алгоритмы машинного обучения, вдохновленные структурой и функциями человеческого мозга. Искусственные нейронные сети получили свое название из-за того, что они состоят из множества узлов/нейронов, связанных вместе. Каждый нейрон манипулирует данными с помощью математической функции. В искусственных нейронных сетях есть входные слои, скрытые слои и выходные слои.

Скрытый слой нейронной сети — это место, где данные фактически интерпретируются и анализируются на наличие закономерностей. Другими словами, именно здесь алгоритм учится. Больше нейронов, объединенных вместе, создают более сложные сети, способные обучаться более сложным паттернам.

Типы неконтролируемого обучения

Алгоритмы неконтролируемого обучения включают в себя:

  • K-означает кластеризацию
  • автоассоциатор
  • Анализ главных компонентов

K-означает кластеризацию — это неконтролируемый метод классификации, который работает путем разделения точек данных на кластеры или группы на основе их характеристик. Кластеризация K-средних анализирует функции, обнаруженные в точках данных, и выделяет в них закономерности, которые делают точки данных, найденные в кластере данного класса, более похожими друг на друга, чем на кластеры, содержащие другие точки данных. Это достигается размещением возможных центров для кластера или центроидов на графике данных и переназначением положения центроида до тех пор, пока не будет найдено положение, которое минимизирует расстояние между центроидом и точками, принадлежащими к классу этого центроида. Исследователь может указать желаемое количество кластеров.

Анализ главных компонентов это метод, который уменьшает большое количество функций/переменных до меньшего пространства функций/меньшего количества функций. «Главные компоненты» точек данных выбираются для сохранения, в то время как другие функции сжимаются в меньшее представление. Взаимосвязь между исходными наборами данных сохраняется, но, поскольку сложность точек данных проще, данные легче поддаются количественной оценке и описанию.

автоассоциатор представляют собой версии нейронных сетей, которые можно применять к задачам обучения без учителя. Автоэнкодеры способны брать немаркированные данные в произвольной форме и преобразовывать их в данные, которые может использовать нейронная сеть, в основном создавая свои собственные помеченные обучающие данные. Цель автоэнкодера — преобразовать входные данные и восстановить их как можно точнее, поэтому сеть должна определить, какие функции являются наиболее важными, и извлечь их.

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.