заглушки Навчання під контролем і без нього - Unite.AI
Зв'язатися з нами
Майстер-клас ШІ:

AI 101

Навчання під контролем проти неконтрольованого

mm
оновлений on

У машинному навчанні більшість завдань можна легко класифікувати в один із двох різних класів: проблеми навчання під контролем або проблеми навчання без контролю. У контрольованому навчанні до даних додаються мітки або класи, тоді як у випадку неконтрольованого навчання дані не позначені. Давайте детально розглянемо, чому ця відмінність важлива, і розглянемо деякі алгоритми, пов’язані з кожним типом навчання.

Навчання під контролем проти неконтрольованого

Більшість завдань машинного навчання входять до сфери навчання під наглядом. В алгоритмах керованого навчання окремим примірникам/точкам даних у наборі даних присвоєно клас або мітку. Це означає, що модель машинного навчання може навчитися розрізняти, які функції корельовані з даним класом, і що інженер машинного навчання може перевірити продуктивність моделі, побачивши, скільки екземплярів було правильно класифіковано. Алгоритми класифікації можна використовувати для розпізнавання багатьох складних моделей, якщо дані позначені відповідними класами. Наприклад, алгоритм машинного навчання може навчитися відрізняти різних тварин одна від одної за такими характеристиками, як «вуса», «хвіст», «кігті» тощо.

На відміну від навчання під наглядом, неконтрольоване навчання передбачає створення моделі, яка здатна витягувати шаблони з немаркованих даних. Іншими словами, комп’ютер аналізує вхідні характеристики та визначає для себе найважливіші характеристики та шаблони. Неконтрольоване навчання намагається знайти властиву подібність між різними випадками. Якщо контрольований алгоритм навчання має на меті розмістити точки даних у відомих класах, алгоритми неконтрольованого навчання перевірять характеристики, спільні для екземплярів об’єктів, і розмістять їх у групи на основі цих ознак, створюючи, по суті, власні класи.

Прикладами контрольованих алгоритмів навчання є лінійна регресія, логістична регресія, K-найближчі сусіди, дерева рішень і опорні векторні машини.

Тим часом деякі приклади алгоритмів неконтрольованого навчання – це аналіз основних компонентів і кластеризація K-середніх.

Алгоритм навчання під наглядом

Linear Regression це алгоритм, який бере дві ознаки та визначає зв’язок між ними. Лінійна регресія використовується для прогнозування числових значень по відношенню до інших числових змінних. Лінійна регресія має рівняння Y = a +bX, де b — нахил лінії, а a — місце, де y перетинає вісь X.

Логістична регресія це двійковий алгоритм класифікації. Алгоритм перевіряє зв’язок між числовими ознаками та визначає ймовірність того, що екземпляр можна віднести до одного з двох різних класів. Значення ймовірностей «стискаються» до 0 або 1. Іншими словами, сильні ймовірності наближатимуться до 0.99, а слабкі ймовірності — до 0.

K-найближчі сусіди призначає клас новим точкам даних на основі призначених класів деякої вибраної кількості сусідів у навчальному наборі. Кількість сусідів, які розглядає алгоритм, є важливою, і занадто мало або занадто багато сусідів може неправильно класифікувати точки.

Дерева рішень є типом алгоритму класифікації та регресії. Дерево рішень функціонує шляхом поділу набору даних на все менші й менші частини, доки підмножини не можна буде далі розділити, і в результаті виходить дерево з вузлами та листками. Вузли – це місце, де приймаються рішення щодо точок даних із використанням різних критеріїв фільтрації, тоді як листя – це екземпляри, яким присвоєно певну мітку (точка даних, яка була класифікована). Алгоритми дерева рішень здатні обробляти як числові, так і категоричні дані. У дереві розбиваються певні змінні/функції.

Підтримка векторних машин це алгоритм класифікації, який працює шляхом малювання гіперплощин або ліній поділу між точками даних. Точки даних розділені на класи залежно від того, з якого боку гіперплощини вони знаходяться. Кілька гіперплощин можна намалювати через площину, розділяючи набір даних на кілька класів. Класифікатор намагатиметься максимізувати відстань між пірнаючою гіперплощиною та точками по обидві сторони площини, і чим більша відстань між лінією та точками, тим впевненіший класифікатор.

Алгоритми неконтрольованого навчання

Аналіз основних компонентів це техніка, яка використовується для зменшення розмірності, тобто розмірність або складність даних представлена ​​простіше. Алгоритм аналізу головних компонентів знаходить нові виміри для даних, які є ортогональними. У той час як розмірність даних зменшується, дисперсія між даними повинна бути максимально збережена. На практиці це означає те, що він бере функції в наборі даних і дистилює їх на меншу кількість функцій, які представляють більшість даних.

Кластеризація K-середніх це алгоритм, який автоматично групує точки даних у кластери на основі подібних ознак. Шаблони в наборі даних аналізуються, а точки даних розбиваються на групи на основі цих шаблонів. По суті, K-means створює власні класи з немаркованих даних. Алгоритм K-Means працює шляхом призначення центрів кластерам або центроїдам і переміщення центроїдів, доки не буде знайдено оптимальне положення для центроїдів. Оптимальна позиція буде такою, де відстань між центроїдами до оточуючих точок даних у межах класу мінімізована. «K» у K-означає кластеризацію означає кількість вибраних центроїдів.

Підсумки

На завершення давайте швидко розглянемо ключові відмінності між контрольоване та неконтрольоване навчання.

Як ми обговорювали раніше, у контрольованих навчальних завданнях вхідні дані позначені, а кількість класів відома. Тим часом вхідні дані не позначені, а кількість класів невідома у випадках неконтрольованого навчання. Навчання без контролю, як правило, менш складне з точки зору обчислень, тоді як навчання з наглядом має тенденцію бути складнішим з точки зору обчислень. Хоча результати навчання під контролем, як правило, дуже точні, результати навчання без контролю, як правило, менш точні/помірно точні.