škrbina Nadzirano i nenadzirano učenje - Unite.AI
Povežite se s nama
Majstorski tečaj umjetne inteligencije:

AI 101

Nadzirano i nenadzirano učenje

mm
Ažurirano on

U strojnom učenju većina zadataka može se lako kategorizirati u jednu od dvije različite klase: problemi s nadziranim učenjem ili problemi s učenjem bez nadzora. U nadziranom učenju podaci imaju oznake ili klase, dok su u slučaju nenadziranog učenja podaci neoznačeni. Pogledajmo pobliže zašto je ova razlika važna i pogledajmo neke od algoritama povezanih sa svakom vrstom učenja.

Nadzirano i nenadzirano učenje

Većina zadataka strojnog učenja je u domeni nadzirano učenje. U algoritmima nadziranog učenja, pojedinačne instance/podatkovne točke u skupu podataka imaju klasu ili oznaku koja im je dodijeljena. To znači da model strojnog učenja može naučiti razlikovati koje su značajke u korelaciji s danom klasom i da inženjer strojnog učenja može provjeriti izvedbu modela gledajući koliko je instanci ispravno klasificirano. Klasifikacijski algoritmi mogu se koristiti za raspoznavanje mnogih složenih obrazaca, sve dok su podaci označeni odgovarajućim klasama. Na primjer, algoritam strojnog učenja može naučiti razlikovati različite životinje jedne od drugih na temelju karakteristika poput "brkova", "repa", "kandži" itd.

Za razliku od učenja pod nadzorom, učenje bez nadzora uključuje stvaranje modela koji može izvući uzorke iz neoznačenih podataka. Drugim riječima, računalo analizira ulazne značajke i za sebe određuje koje su najvažnije značajke i uzorci. Učenje bez nadzora pokušava pronaći inherentne sličnosti između različitih instanci. Ako algoritam nadziranog učenja ima za cilj smjestiti podatkovne točke u poznate klase, algoritmi nenadziranog učenja ispitat će značajke zajedničke instancama objekta i smjestiti ih u grupe na temelju tih značajki, u biti stvarajući vlastite klase.

Primjeri algoritama nadziranog učenja su linearna regresija, logistička regresija, K-najbliži susjedi, stabla odlučivanja i strojevi potpornih vektora.

U međuvremenu, neki primjeri algoritama učenja bez nadzora su analiza glavnih komponenti i klasteriranje K-srednjih vrijednosti.

Algoritam nadziranog učenja

Linearna regresija je algoritam koji uzima dvije značajke i iscrtava odnos između njih. Linearna regresija koristi se za predviđanje numeričkih vrijednosti u odnosu na druge numeričke varijable. Linearna regresija ima jednadžbu Y = a +bX, gdje je b nagib linije, a a mjesto gdje y siječe X-os.

Logistička regresija je algoritam binarne klasifikacije. Algoritam ispituje odnos između numeričkih značajki i pronalazi vjerojatnost da se instanca može klasificirati u jednu od dvije različite klase. Vrijednosti vjerojatnosti su "stisnute" prema 0 ili 1. Drugim riječima, jake vjerojatnosti će se približiti 0.99 dok će se slabe vjerojatnosti približiti 0.

K-najbliži susjedi dodjeljuje klasu novim podatkovnim točkama na temelju dodijeljenih klasa neke odabrane količine susjeda u skupu za obuku. Broj susjeda koje razmatra algoritam je važan, a premalo ili previše susjeda može pogrešno klasificirati točke.

Stabla odlučivanja su vrsta algoritma klasifikacije i regresije. Stablo odlučivanja funkcionira dijeljenjem skupa podataka na sve manje i manje dijelove dok se podskupovi ne mogu dalje dijeliti, a rezultat je stablo s čvorovima i listovima. Čvorovi su mjesta gdje se donose odluke o podatkovnim točkama pomoću različitih kriterija filtriranja, dok su listovi instance kojima je dodijeljena neka oznaka (podatkovna točka koja je klasificirana). Algoritmi stabla odlučivanja sposobni su rukovati i numeričkim i kategoričkim podacima. Podjele su napravljene u stablu na određenim varijablama/značajkama.

Podrška vektorskih strojeva su algoritam klasifikacije koji radi crtanjem hiperravnina ili linija razdvajanja između podatkovnih točaka. Podatkovne točke su odvojene u klase na temelju toga na kojoj se strani hiperravnine nalaze. Višestruke hiperravnine mogu se iscrtati preko ravnine, razvrstavajući skup podataka u više klasa. Klasifikator će pokušati maksimalno povećati udaljenost između hiperravnine za ronjenje i točaka s obje strane ravnine, a što je veća udaljenost između linije i točaka, to je klasifikator sigurniji.

Algoritmi učenja bez nadzora

Analiza glavne komponente je tehnika koja se koristi za smanjenje dimenzionalnosti, što znači da se dimenzionalnost ili složenost podataka prikazuje na jednostavniji način. Algoritam za analizu glavnih komponenti pronalazi nove dimenzije za podatke koji su ortogonalni. Iako je dimenzionalnost podataka smanjena, varijance između podataka treba očuvati što je više moguće. U praktičnom smislu to znači da uzima značajke u skupu podataka i destilira ih u manji broj značajki koje predstavljaju većinu podataka.

Klasteriranje K-sredstava je algoritam koji automatski grupira podatkovne točke u klastere na temelju sličnih značajki. Uzorci unutar skupa podataka se analiziraju i podatkovne točke dijele u grupe na temelju tih uzoraka. U biti, K-means stvara vlastite klase iz neoznačenih podataka. Algoritam K-Means funkcionira dodjeljivanjem središta klasterima ili centroidima i pomicanjem centroida dok se ne pronađe optimalni položaj za centroide. Optimalan položaj bit će onaj gdje je udaljenost između težišta i okolnih podatkovnih točaka unutar klase minimalizirana. "K" u K-znači grupiranje odnosi se na to koliko je centroida odabrano.

rezime

Za kraj, brzo prođimo kroz ključne razlike između nadzirano i nenadzirano učenje.

Kao što smo prethodno spomenuli, u zadacima nadziranog učenja ulazni podaci su označeni, a broj sati je poznat. U međuvremenu, ulazni podaci nisu označeni, a broj razreda nije poznat u slučajevima učenja bez nadzora. Učenje bez nadzora obično je manje računalno složeno, dok je učenje pod nadzorom računalno složenije. Dok su rezultati nadziranog učenja obično vrlo točni, rezultati nenadziranog učenja obično su manje točni/umjereno točni.

Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.