AI 101

Ohjattu vs ohjaamaton oppiminen

Päivitetty on Elokuu 23, 2020

Koneoppimisessa useimmat tehtävät voidaan helposti luokitella kahteen eri luokkaan: valvottuihin oppimisongelmiin tai valvomattomiin oppimisongelmiin. Ohjatussa oppimisessa dataan on liitetty tunnisteita tai luokkia, kun taas ohjaamattoman oppimisen tapauksessa data on nimeämätön. Tarkastellaanpa tarkasti, miksi tämä ero on tärkeä, ja tarkastellaan joitain kuhunkin oppimiseen liittyviä algoritmeja.

Ohjattu vs ohjaamaton oppiminen

Useimmat koneoppimistehtävät kuuluvat verkkotunnukseen ohjattua oppimista. Valvotuissa oppimisalgoritmeissa tietojoukon yksittäisille esiintymille/tietopisteille on määritetty luokka tai tunniste. Tämä tarkoittaa, että koneoppimismalli voi oppia erottamaan, mitkä ominaisuudet korreloivat tietyn luokan kanssa, ja että koneoppimisinsinööri voi tarkistaa mallin suorituskyvyn katsomalla, kuinka monta esiintymää on luokiteltu oikein. Luokittelualgoritmeja voidaan käyttää monien monimutkaisten kuvioiden erottamiseen, kunhan tiedot on merkitty oikeilla luokilla. Esimerkiksi koneoppimisalgoritmi voi oppia erottamaan eri eläimet toisistaan ominaisuuksien, kuten "viikset", "häntä", "kynnet" jne., perusteella.

Toisin kuin ohjattu oppiminen, valvomaton oppiminen sisältää mallin luomisen, joka pystyy poimimaan kuvioita merkitsemättömästä tiedosta. Toisin sanoen tietokone analysoi syöteominaisuudet ja määrittää itse, mitkä ovat tärkeimmät ominaisuudet ja kuviot. Ohjaamaton oppiminen yrittää löytää luontaisia yhtäläisyyksiä eri tapausten välillä. Jos valvottu oppimisalgoritmi pyrkii sijoittamaan datapisteitä tunnettuihin luokkiin, valvomattomat oppimisalgoritmit tutkivat objektiinstanssien yhteisiä piirteitä ja sijoittavat ne näiden ominaisuuksien perusteella ryhmiin ja luovat olennaisesti omat luokat.

Esimerkkejä valvotuista oppimisalgoritmeista ovat lineaarinen regressio, logistinen regressio, K-lähimmät naapurit, päätöspuut ja tukivektorikoneet.

Samaan aikaan joitakin esimerkkejä valvomattomista oppimisalgoritmeista ovat pääkomponenttianalyysi ja K-Means Clustering.

Valvottu oppimisalgoritmi

Lineaarinen regressio on algoritmi, joka ottaa kaksi ominaisuutta ja piirtää niiden välisen suhteen. Lineaarista regressiota käytetään numeeristen arvojen ennustamiseen suhteessa muihin numeerisiin muuttujiin. Lineaarisella regressiolla on yhtälö Y = a +bX, missä b on suoran kaltevuus ja a on missä y leikkaa X-akselin.

Logistinen regressio on binäärinen luokitusalgoritmi. Algoritmi tutkii numeeristen ominaisuuksien välistä suhdetta ja löytää todennäköisyyden, että ilmentymä voidaan luokitella johonkin kahdesta eri luokasta. Todennäköisyysarvot "puristetaan" kohti joko nollaa tai 0:tä. Toisin sanoen vahvat todennäköisyydet lähestyvät arvoa 1, kun taas heikot todennäköisyydet lähestyvät nollaa.

K-Lähimmät naapurit määrittää luokan uusille datapisteille koulutusjoukon jonkin valitun määrän naapureiden määritettyjen luokkien perusteella. Algoritmin huomioimien naapureiden määrä on tärkeä, ja liian harvat tai liian monet naapurit voivat luokitella pisteitä väärin.

Päätöspuut ovat eräänlainen luokittelu- ja regressioalgoritmi. Päätöspuu toimii jakamalla tietojoukon yhä pienempiin osiin, kunnes osajoukkoja ei voida jakaa enempää ja tuloksena on puu, jossa on solmuja ja lehtiä. Solmut ovat missä päätökset datapisteistä tehdään erilaisilla suodatuskriteereillä, kun taas lehdet ovat ilmentymiä, joille on annettu jokin nimike (tietopiste, joka on luokiteltu). Päätöspuualgoritmit pystyvät käsittelemään sekä numeerista että kategorista dataa. Splitit tehdään puussa tietyille muuttujille/ominaisuuksille.

Tuki vektorikoneille ovat luokitusalgoritmi, joka toimii piirtämällä hypertasoja tai erotusviivoja datapisteiden välille. Datapisteet jaetaan luokkiin sen mukaan, millä hypertason puolella ne ovat. Tason poikki voidaan piirtää useita hypertasoja, jolloin tietojoukko voidaan jakaa useisiin luokkiin. Luokitin yrittää maksimoida etäisyyden sukellushypertason ja tason kummallakin puolella olevien pisteiden välillä, ja mitä suurempi viivan ja pisteiden välinen etäisyys on, sitä varmempi luokitin on.

Valvomattomat oppimisalgoritmit

Pääkomponenttianalyysi on tekniikka, jota käytetään mittasuhteiden vähentämiseen, mikä tarkoittaa, että datan ulottuvuus tai monimutkaisuus esitetään yksinkertaisemmalla tavalla. Pääkomponenttianalyysialgoritmi löytää uusia ulottuvuuksia tiedoille, jotka ovat ortogonaalisia. Samalla kun datan ulottuvuus pienenee, tietojen välinen varianssi tulee säilyttää mahdollisimman paljon. Käytännössä tämä tarkoittaa, että se ottaa tietojoukon ominaisuudet ja tislaa ne harvempiin ominaisuuksiin, jotka edustavat suurinta osaa tiedoista.

K-tarkoittaa klusterointia on algoritmi, joka ryhmittelee datapisteet automaattisesti klustereihin samanlaisten ominaisuuksien perusteella. Tietojoukon kaavat analysoidaan ja datapisteet jaetaan ryhmiin näiden mallien perusteella. Pohjimmiltaan K-means luo omat luokkansa nimeämättömästä tiedosta. K-Means-algoritmi toimii osoittamalla keskipisteitä klustereille tai sentroideille ja siirtämällä sentroideja, kunnes sentroideille löydetään optimaalinen sijainti. Optimaalinen sijainti on sellainen, jossa sentroidien ja ympäröivien tietopisteiden välinen etäisyys luokassa on minimoitu. "K" K-keskiarvojen klusteroinnissa viittaa siihen, kuinka monta sentroidia on valittu.

Yhteenveto

Lopuksi käydään nopeasti läpi tärkeimmät erot ohjattua ja ohjaamatonta oppimista.

Kuten aiemmin totesimme, ohjatuissa oppimistehtävissä syötetiedot merkitään ja luokkien lukumäärä tunnetaan. Sillä välin syötetiedot ovat nimeämättömiä ja luokkien lukumäärää ei tunneta valvomattomissa oppimistapauksissa. Ohjaamaton oppiminen on yleensä vähemmän monimutkaista laskennallisesti, kun taas ohjattu oppiminen on yleensä laskennallisesti monimutkaisempaa. Vaikka ohjatut oppimistulokset ovat yleensä erittäin tarkkoja, valvomattomat oppimistulokset ovat yleensä vähemmän tarkkoja/kohtalaisen tarkkoja.

Seuraavaksi

Mitä ovat hermoverkot?

Älä missaa

Strukturoitu vs. jäsentämätön data

Daniel Nelson

Bloggaaja ja ohjelmoija erikoisaloilla Koneen oppiminen ja Deep Learning aiheita. Daniel toivoo voivansa auttaa muita käyttämään tekoälyn voimaa yhteiskunnalliseen hyvään.

Unite.AI

Ohjattu vs ohjaamaton oppiminen

AI 101

Ohjattu vs ohjaamaton oppiminen

Sisällysluettelo

Ohjattu vs ohjaamaton oppiminen

Valvottu oppimisalgoritmi

Valvomattomat oppimisalgoritmit

Yhteenveto

Unite.AI

Ohjattu vs ohjaamaton oppiminen

Sisällysluettelo

Ohjattu vs ohjaamaton oppiminen

Valvottu oppimisalgoritmi

Valvomattomat oppimisalgoritmit

Yhteenveto

Saatat pitää