заглушки Що таке машинне навчання? - Об'єднуйтесь.AI
Зв'язатися з нами
Майстер-клас ШІ:

AI 101

Що таке машинне навчання?

mm
оновлений on

Машинне навчання є однією з технологічних галузей, що розвиваються найшвидше, але, незважаючи на те, як часто говорять про «машинне навчання», може бути важко зрозуміти, що саме таке машинне навчання.

навчання за допомогою машини не відноситься до однієї речі, це загальний термін, який можна застосувати до багатьох різних концепцій і технік. Розуміння машинного навчання означає знання різних форм аналізу моделей, змінних і алгоритмів. Давайте уважніше розглянемо машинне навчання, щоб краще зрозуміти, що воно охоплює.

Що таке машинне навчання?

Хоча термін «машинне навчання» можна застосовувати до багатьох різних речей, загалом цей термін стосується дозволу комп’ютеру виконувати завдання без отримання чітких покрокових інструкцій для цього. Фахівцю з машинного навчання не потрібно записувати всі кроки, необхідні для вирішення проблеми, оскільки комп’ютер здатний «навчатися», аналізуючи шаблони в даних і узагальнюючи ці шаблони для нових даних.

Системи машинного навчання складаються з трьох основних частин:

  • Витрати
  • Алгоритми
  • Виходи

Вхідні дані – це дані, які подаються в систему машинного навчання, і вхідні дані можна розділити на мітки та функції. Особливості — це відповідні змінні, змінні, які аналізуватимуться, щоб дізнатися закономірності та зробити висновки. Між тим, мітки — це класи/описи, надані окремим примірникам даних.

Функції та мітки можна використовувати в двох різних типах проблем машинного навчання: контрольоване навчання та неконтрольоване навчання.

Неконтрольоване проти контрольованого навчання

In контрольоване навчання, вхідні дані супроводжуються основною правдою. Навчальні задачі під наглядом мають правильні вихідні значення як частину набору даних, тому очікувані класи відомі заздалегідь. Це дає змогу досліднику даних перевірити продуктивність алгоритму, перевіривши дані на тестовому наборі даних і подивившись, який відсоток елементів було правильно класифіковано.

У контрасті, непідконтрольне навчання Проблеми не мають ярликів істинності. Алгоритм машинного навчання, навчений виконувати завдання неконтрольованого навчання, повинен мати можливість самостійно виводити відповідні закономірності в даних.

Алгоритми керованого навчання зазвичай використовуються для проблем класифікації, коли є великий набір даних, заповнений екземплярами, які потрібно відсортувати в одному з багатьох різних класів. Іншим типом контрольованого навчання є регресійне завдання, де значення, виведене алгоритмом, є безперервним, а не категоричним.

Тим часом алгоритми неконтрольованого навчання використовуються для таких завдань, як оцінка щільності, кластеризація та навчання представлення. Ці три завдання потребують моделі машинного навчання для визначення структури даних, для моделі немає попередньо визначених класів.

Давайте коротко розглянемо деякі з найпоширеніших алгоритмів, які використовуються як у неконтрольованому, так і в контрольованому навчанні.

Типи навчання під контролем

Загальні алгоритми навчання під наглядом включають:

  • Наївні Баєси
  • Підтримка векторних машин
  • Логістична регресія
  • Випадкові ліси
  • Штучні нейронні мережі

Підтримка векторних машин це алгоритми, які поділяють набір даних на різні класи. Точки даних групуються в кластери за допомогою ліній, які відокремлюють класи один від одного. Точки, знайдені з одного боку лінії, належатимуть до одного класу, тоді як точки з іншого боку лінії належатимуть до іншого класу. Машини опорних векторів прагнуть максимізувати відстань між лінією та точками, розташованими по обидві сторони лінії, і чим більша відстань, тим впевненіший класифікатор у тому, що точка належить до одного класу, а не до іншого класу.

Логістична регресія це алгоритм, який використовується в задачах бінарної класифікації, коли точки даних потрібно класифікувати як належні до одного з двох класів. Логістична регресія працює, позначаючи точку даних 1 або 0. Якщо сприйняте значення точки даних становить 0.49 або менше, воно класифікується як 0, а якщо значення 0.5 або вище, класифікується як 1.

Алгоритми дерева рішень працювати шляхом поділу наборів даних на дедалі менші фрагменти. Точні критерії, які використовуються для розподілу даних, залежить від інженера машинного навчання, але мета полягає в тому, щоб остаточно розділити дані на окремі точки даних, які потім будуть класифіковані за допомогою ключа.

Алгоритм випадкового лісу — це, по суті, багато окремих класифікаторів дерева рішень, об’єднаних у більш потужний класифікатор.

Команда Наївний байєсівський класифікатор обчислює ймовірність того, що дана точка даних відбулася на основі ймовірності попередньої події. Він заснований на теоремі Байєса та розміщує точки даних у класи на основі їх обчисленої ймовірності. При реалізації наївного класифікатора Байєса передбачається, що всі предиктори мають однаковий вплив на результат класу.

An Штучна нейронна мережа, або багатошаровий перцептрон, — це алгоритми машинного навчання, створені за структурою та функціями людського мозку. Штучні нейронні мережі отримали свою назву через те, що вони складаються з багатьох вузлів/нейронів, пов’язаних разом. Кожен нейрон маніпулює даними за допомогою математичної функції. У штучних нейронних мережах є вхідні, приховані та вихідні рівні.

Прихований рівень нейронної мережі – це місце, де дані фактично інтерпретуються та аналізуються на наявність шаблонів. Іншими словами, це місце, де алгоритм навчається. Більша кількість нейронів, об’єднаних разом, утворюють складніші мережі, здатні вивчати складніші моделі.

Типи неконтрольованого навчання

Алгоритми неконтрольованого навчання включають:

  • K-означає кластеризацію
  • Автокодери
  • Аналіз основних компонентів

K-означає кластеризацію це неконтрольована техніка класифікації, яка працює шляхом поділу точок даних на кластери або групи на основі їхніх характеристик. Кластеризація K-means аналізує характеристики, знайдені в точках даних, і розрізняє в них шаблони, які роблять точки даних, знайдені в даному кластері кластеру, більш схожими одна на одну, ніж вони є на кластери, що містять інші точки даних. Це досягається шляхом розміщення можливих центрів кластера або центроїдів на графіку даних і зміни положення центроїда, доки не буде знайдено положення, яке мінімізує відстань між центроїдом і точками, які належать до класу цього центроїда. Дослідник може вказати бажану кількість кластерів.

Аналіз основних компонентів це техніка, яка зменшує велику кількість функцій/змінних до меншого простору/меншої кількості функцій. «Основні компоненти» точок даних вибираються для збереження, тоді як інші функції стискаються до меншого представлення. Зв’язок між вихідними даними зберігається, але оскільки складність точок даних простіше, дані легше кількісно оцінити й описати.

Автокодери це версії нейронних мереж, які можуть бути застосовані для неконтрольованих навчальних завдань. Автокодери здатні отримувати немічені дані довільної форми та перетворювати їх у дані, які може використовувати нейронна мережа, створюючи власні навчальні дані з мітками. Метою автокодувальника є перетворення вхідних даних і перебудова їх якомога точніше, тому мережа має на меті визначити, які функції є найважливішими, і витягнути їх.

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.