škrbina Nadzorovano proti nenadzorovanemu učenju - Unite.AI
Povežite se z nami

AI 101

Nadzorovano proti nenadzorovanemu učenju

mm
Posodobljeno on

Pri strojnem učenju je večino nalog mogoče zlahka kategorizirati v enega od dveh različnih razredov: nadzorovane učne težave ali nenadzorovane učne težave. Pri nadzorovanem učenju so podatkom dodane oznake ali razredi, pri nenadzorovanem učenju pa so podatki neoznačeni. Oglejmo si natančno, zakaj je to razlikovanje pomembno, in si oglejmo nekaj algoritmov, povezanih z vsako vrsto učenja.

Nadzorovano proti nenadzorovanemu učenju

Večina nalog strojnega učenja je v domeni nadzorovano učenje. V algoritmih za nadzorovano učenje imajo posamezni primerki/podatkovne točke v naboru podatkov dodeljen razred ali oznako. To pomeni, da se lahko model strojnega učenja nauči razlikovati, katere funkcije so povezane z danim razredom, in da lahko inženir strojnega učenja preveri delovanje modela tako, da vidi, koliko primerkov je bilo pravilno razvrščenih. Klasifikacijske algoritme je mogoče uporabiti za razločevanje številnih kompleksnih vzorcev, če so podatki označeni z ustreznimi razredi. Na primer, algoritem strojnega učenja se lahko nauči razlikovati različne živali med seboj na podlagi značilnosti, kot so "brki", "rep", "kremplji" itd.

V nasprotju z nadzorovanim učenjem, nenadzorovano učenje vključuje ustvarjanje modela, ki je sposoben izluščiti vzorce iz neoznačenih podatkov. Z drugimi besedami, računalnik analizira vhodne značilnosti in sam določi, katere so najpomembnejše lastnosti in vzorci. Nenadzorovano učenje poskuša najti inherentne podobnosti med različnimi primeri. Če je namen nadzorovanega učnega algoritma umestiti podatkovne točke v znane razrede, bodo nenadzorovani učni algoritmi preučili značilnosti, ki so skupne primerkom objekta, in jih uvrstili v skupine na podlagi teh značilnosti, kar v bistvu ustvari lastne razrede.

Primeri algoritmov za nadzorovano učenje so linearna regresija, logistična regresija, K-najbližji sosedje, odločitvena drevesa in podporni vektorski stroji.

Nekaj ​​primerov algoritmov za nenadzorovano učenje je medtem analiza glavnih komponent in združevanje v skupine K-Means.

Algoritem nadzorovanega učenja

linearna regresija je algoritem, ki vzame dve funkciji in izriše razmerje med njima. Linearna regresija se uporablja za napovedovanje številskih vrednosti v povezavi z drugimi številskimi spremenljivkami. Linearna regresija ima enačbo Y = a +bX, kjer je b naklon premice in a mesto, kjer y prečka os X.

Logistična regresija je algoritem binarne klasifikacije. Algoritem preuči razmerje med numeričnimi značilnostmi in ugotovi verjetnost, da je mogoče primerek razvrstiti v enega od dveh različnih razredov. Vrednosti verjetnosti so "stisnjene" proti 0 ali 1. Z drugimi besedami, velike verjetnosti se bodo približale 0.99, medtem ko se bodo šibke verjetnosti približale 0.

K-Najbližji sosedje dodeli razred novim podatkovnim točkam na podlagi dodeljenih razredov določenega števila sosedov v učnem nizu. Število sosedov, ki jih upošteva algoritem, je pomembno in premalo ali preveč sosedov lahko napačno razvrsti točke.

Drevesa odločanja so vrsta klasifikacijskega in regresijskega algoritma. Odločitveno drevo deluje tako, da nabor podatkov razdeli na vse manjše in manjše dele, dokler podnaborov ni več mogoče razdeliti, rezultat pa je drevo z vozlišči in listi. Vozlišča so mesta, kjer se sprejemajo odločitve o podatkovnih točkah z uporabo različnih kriterijev filtriranja, medtem ko so listi primerki, ki jim je bila dodeljena neka oznaka (podatkovna točka, ki je bila razvrščena). Algoritmi odločitvenega drevesa lahko obravnavajo tako numerične kot kategorične podatke. V drevesu se naredijo razdelki na določene spremenljivke/značilnosti.

Podporni vektorski stroji so algoritem za razvrščanje, ki deluje tako, da nariše hiperravnine ali ločilne črte med podatkovnimi točkami. Podatkovne točke so ločene v razrede glede na to, na kateri strani hiperravnine so. Čez ravnino je mogoče narisati več hiperravnin, s čimer nabor podatkov razdelite na več razredov. Klasifikator bo poskušal čim bolj povečati razdaljo med potapljaško hiperravnino in točkami na obeh straneh ravnine in večja ko je razdalja med črto in točkami, bolj samozavesten je klasifikator.

Algoritmi za nenadzorovano učenje

Analiza glavnih komponent je tehnika, ki se uporablja za zmanjšanje dimenzionalnosti, kar pomeni, da je dimenzionalnost ali kompleksnost podatkov predstavljena na enostavnejši način. Algoritem za analizo glavnih komponent najde nove dimenzije za podatke, ki so pravokotni. Medtem ko je dimenzionalnost podatkov zmanjšana, je treba čim bolj ohraniti varianco med podatki. V praksi to pomeni, da vzame funkcije v naboru podatkov in jih razdeli na manj funkcij, ki predstavljajo večino podatkov.

K-pomeni združevanje v gruče je algoritem, ki samodejno združuje podatkovne točke v gruče na podlagi podobnih lastnosti. Vzorci v naboru podatkov se analizirajo in podatkovne točke razdelijo v skupine na podlagi teh vzorcev. V bistvu K-means ustvari lastne razrede iz neoznačenih podatkov. Algoritem K-Means deluje tako, da dodeli središča grozdom ali centroidom in premika centroide, dokler ni najden optimalen položaj za centroide. Optimalen položaj bo tisti, kjer je razdalja med centroidi in okoliškimi podatkovnimi točkami znotraj razreda čim manjša. »K« pri združevanju v skupine K pomeni, da se nanaša na to, koliko centroidov je bilo izbranih.

Povzetek

Za zaključek si na hitro preglejmo ključne razlike med nadzorovano in nenadzorovano učenje.

Kot smo že omenili, so v nadzorovanih učnih nalogah vhodni podatki označeni, število razredov pa znano. Medtem so vhodni podatki neoznačeni in število razredov ni znano v primerih nenadzorovanega učenja. Nenadzorovano učenje je računalniško manj zapleteno, medtem ko je nadzorovano učenje računalniško bolj zapleteno. Medtem ko so rezultati nadzorovanega učenja ponavadi zelo natančni, so rezultati nenadzorovanega učenja ponavadi manj natančni/srednje natančni.