ciot Învățare supravegheată vs. nesupravegheată - Unite.AI
Conectează-te cu noi
Masterclass AI:

AI 101

Învățare supravegheată vs. nesupravegheată

mm
Actualizat on

În învățarea automată, majoritatea sarcinilor pot fi clasificate cu ușurință în una din două clase diferite: probleme de învățare supravegheată sau probleme de învățare nesupravegheată. În învățarea supravegheată, datele au etichete sau clase atașate, în timp ce în cazul învățării nesupravegheate datele sunt neetichetate. Să aruncăm o privire atentă la motivul pentru care această distincție este importantă și să analizăm unii dintre algoritmii asociați fiecărui tip de învățare.

Învățare supravegheată vs. nesupravegheată

Majoritatea sarcinilor de învățare automată sunt în domeniul învăţare supravegheată. În algoritmii de învățare supravegheată, instanțele/punctele de date individuale din setul de date au o clasă sau o etichetă atribuită acestora. Aceasta înseamnă că modelul de învățare automată poate învăța să distingă ce caracteristici sunt corelate cu o anumită clasă și că inginerul de învățare automată poate verifica performanța modelului, văzând câte instanțe au fost clasificate corect. Algoritmii de clasificare pot fi utilizați pentru a discerne multe modele complexe, atâta timp cât datele sunt etichetate cu clasele adecvate. De exemplu, un algoritm de învățare automată poate învăța să distingă diferite animale unul de celălalt pe baza unor caracteristici precum „muștați”, „coadă”, „gheare” etc.

Spre deosebire de învăţarea supravegheată, învățarea nesupravegheată implică crearea unui model care este capabil să extragă modele din date neetichetate. Cu alte cuvinte, computerul analizează caracteristicile de intrare și determină singur care sunt caracteristicile și modelele cele mai importante. Învățarea nesupravegheată încearcă să găsească asemănările inerente între diferitele instanțe. Dacă un algoritm de învățare supravegheată urmărește să plaseze puncte de date în clase cunoscute, algoritmii de învățare nesupravegheat vor examina caracteristicile comune instanțelor obiectului și le vor plasa în grupuri pe baza acestor caracteristici, creând în esență propriile clase.

Exemple de algoritmi de învățare supravegheată sunt regresia liniară, regresia logistică, K-nearest Neighbors, Decision Trees și Support Vector Machines.

Între timp, câteva exemple de algoritmi de învățare nesupravegheat sunt Analiza componentelor principale și Clustering K-Means.

Algoritm de învățare supravegheată

linear Regression este un algoritm care preia două caracteristici și trasează relația dintre ele. Regresia liniară este utilizată pentru a prezice valori numerice în relație cu alte variabile numerice. Regresia liniară are ecuația Y = a +bX, unde b este panta dreptei și a este locul în care y traversează axa X.

Regresie logistică este un algoritm de clasificare binar. Algoritmul examinează relația dintre caracteristicile numerice și găsește probabilitatea ca instanța să poată fi clasificată într-una din două clase diferite. Valorile probabilității sunt „strânse” fie spre 0, fie spre 1. Cu alte cuvinte, probabilitățile puternice se vor apropia de 0.99, în timp ce probabilitățile slabe se vor apropia de 0.

K-Cei mai apropiati vecini atribuie o clasă noilor puncte de date pe baza claselor atribuite unei cantități alese de vecini din setul de antrenament. Numărul de vecini luați în considerare de algoritm este important și prea puțini sau prea mulți vecini pot clasifica greșit punctele.

Arbori de decizie sunt un tip de algoritm de clasificare și regresie. Un arbore de decizie funcționează prin împărțirea unui set de date în porțiuni din ce în ce mai mici până când subseturile nu mai pot fi împărțite și rezultatul este un arbore cu noduri și frunze. Nodurile sunt locul în care deciziile privind punctele de date sunt luate folosind diferite criterii de filtrare, în timp ce frunzele sunt instanțe cărora li s-a atribuit o etichetă (un punct de date care a fost clasificat). Algoritmii arborelui de decizie sunt capabili să manipuleze atât date numerice, cât și date categoriale. Împărțirile sunt făcute în arbore pe variabile/funcții specifice.

Suporta mașini vectoriale sunt un algoritm de clasificare care funcționează prin desenarea de hiperplanuri, sau linii de separare, între punctele de date. Punctele de date sunt separate în clase în funcție de ce parte a hiperplanului se află. Mai multe hiperplanuri pot fi desenate pe un plan, scufundând un set de date în mai multe clase. Clasificatorul va încerca să maximizeze distanța dintre hiperplanul de scufundare și punctele de pe ambele părți ale planului și, cu cât distanța dintre linie și puncte este mai mare, cu atât clasificatorul este mai încrezător.

Algoritmi de învățare nesupravegheat

Analiza componentelor principale este o tehnică utilizată pentru reducerea dimensionalității, ceea ce înseamnă că dimensionalitatea sau complexitatea datelor este reprezentată într-un mod mai simplu. Algoritmul de analiză a componentelor principale găsește noi dimensiuni pentru datele care sunt ortogonale. În timp ce dimensionalitatea datelor este redusă, diferența dintre date ar trebui păstrată cât mai mult posibil. Ceea ce înseamnă acest lucru în termeni practici este că preia caracteristicile din setul de date și le distila în mai puține caracteristici care reprezintă majoritatea datelor.

K-înseamnă grupare este un algoritm care grupează automat punctele de date în grupuri bazate pe caracteristici similare. Modelele din setul de date sunt analizate și punctele de date sunt împărțite în grupuri pe baza acestor modele. În esență, K-means își creează propriile clase din date neetichetate. Algoritmul K-Means funcționează prin atribuirea de centre clusterelor sau centroizii și mutarea centroizilor până când se găsește poziția optimă pentru centroizi. Poziția optimă va fi aceea în care distanța dintre centroizi și punctele de date din jurul clasei este minimizată. „K” în gruparea K înseamnă că se referă la câți centroizi au fost aleși.

Rezumat

Pentru a încheia, să trecem rapid peste diferențele cheie dintre învățarea supravegheată și nesupravegheată.

După cum am discutat anterior, în sarcinile de învățare supravegheată datele de intrare sunt etichetate și numărul de clase este cunoscut. Între timp, datele de intrare nu sunt etichetate și numărul de clase nu este cunoscut în cazurile de învățare nesupravegheată. Învățarea nesupravegheată tinde să fie mai puțin complexă din punct de vedere computațional, în timp ce învățarea supravegheată tinde să fie mai complexă din punct de vedere computațional. În timp ce rezultatele învățării supravegheate tind să fie foarte precise, rezultatele învățării nesupravegheate tind să fie mai puțin precise/moderat precise.