škrbina Što je strojno učenje? - Ujedinite se.AI
Povežite se s nama
Majstorski tečaj umjetne inteligencije:

AI 101

Što je strojno učenje?

mm
Ažurirano on

Strojno učenje jedno je od najbrže rastućih tehnoloških područja, ali unatoč tome koliko se često riječi "strojno učenje" pominju, može biti teško razumjeti što je točno strojno učenje.

Strojno učenje ne odnosi se samo na jednu stvar, to je krovni pojam koji se može primijeniti na mnogo različitih koncepata i tehnika. Razumijevanje strojnog učenja znači poznavanje različitih oblika analize modela, varijabli i algoritama. Pogledajmo pobliže strojno učenje kako bismo bolje razumjeli što ono obuhvaća.

Što je strojno učenje?

Dok se izraz strojno učenje može primijeniti na mnogo različitih stvari, općenito se izraz odnosi na omogućavanje računalu da izvršava zadatke bez primanja eksplicitnih uputa redak po redak za to. Stručnjak za strojno učenje ne mora napisati sve korake potrebne za rješavanje problema jer je računalo sposobno "učiti" analizirajući obrasce unutar podataka i generalizirajući te obrasce na nove podatke.

Sustavi strojnog učenja imaju tri osnovna dijela:

  • Ulazi
  • Algoritmi
  • Izlazi

Ulazi su podaci koji se unose u sustav strojnog učenja, a ulazni podaci mogu se podijeliti na oznake i značajke. Značajke su relevantne varijable, varijable koje će se analizirati kako bi se naučili obrasci i izvukli zaključci. U međuvremenu, oznake su klase/opisi dani pojedinačnim instancama podataka.

Značajke i oznake mogu se koristiti u dvije različite vrste problema strojnog učenja: nadzirano učenje i nenadzirano učenje.

Nenadzirano naspram nadziranog učenja

In nadzirano učenje, ulazni podaci popraćeni su temeljnom istinom. Problemi nadziranog učenja imaju točne izlazne vrijednosti kao dio skupa podataka, tako da su očekivane klase unaprijed poznate. To omogućuje podatkovnom znanstveniku da provjeri izvedbu algoritma testiranjem podataka na testnom skupu podataka i gledajući koji je postotak stavki ispravno klasificiran.

U kontrastu, učenje bez nadzora problemi nemaju temeljne etikete istine. Algoritam strojnog učenja osposobljen za izvršavanje zadataka učenja bez nadzora mora biti u stanju zaključiti relevantne obrasce u podacima za sebe.

Algoritmi nadziranog učenja obično se koriste za probleme klasifikacije, gdje postoji veliki skup podataka ispunjen instancama koje se moraju sortirati u jednu od mnogih različitih klasa. Druga vrsta nadziranog učenja je regresijski zadatak, gdje je izlazna vrijednost algoritma kontinuirane prirode umjesto kategoričke.

U međuvremenu, algoritmi učenja bez nadzora koriste se za zadatke kao što su procjena gustoće, grupiranje i učenje reprezentacije. Ova tri zadatka trebaju model strojnog učenja za zaključivanje strukture podataka, ne postoje unaprijed definirane klase dane modelu.

Pogledajmo ukratko neke od najčešćih algoritama koji se koriste u nenadziranom i nadziranom učenju.

Vrste nadziranog učenja

Uobičajeni algoritmi učenja pod nadzorom uključuju:

  • Naivni Bayes
  • Podrška vektorskih strojeva
  • Logistička regresija
  • Slučajne šume
  • Umjetne neuronske mreže

Podrška vektorskih strojeva su algoritmi koji dijele skup podataka u različite klase. Podatkovne točke su grupirane u klastere crtanjem linija koje odvajaju klase jednu od druge. Točke koje se nalaze s jedne strane crte pripadat će jednoj klasi, dok su točke s druge strane crte drugoj klasi. Strojevi za potporu vektora imaju za cilj maksimizirati udaljenost između linije i točaka koje se nalaze s obje strane linije, a što je udaljenost veća, to je klasifikator sigurniji da točka pripada jednoj klasi, a ne drugoj klasi.

Logistička regresija je algoritam koji se koristi u zadacima binarne klasifikacije kada podatkovne točke treba klasificirati kao da pripadaju jednoj od dvije klase. Logistička regresija funkcionira označavanjem podatkovne točke s 1 ili 0. Ako je percipirana vrijednost podatkovne točke 0.49 ili niža, klasificira se kao 0, dok ako je 0.5 ili više, klasificira se kao 1.

Algoritmi stabla odlučivanja rade dijeleći skupove podataka na sve manje fragmente. Točan kriterij koji se koristi za podjelu podataka ovisi o inženjeru strojnog učenja, ali cilj je u konačnici podijeliti podatke u pojedinačne podatkovne točke, koje će se zatim klasificirati pomoću ključa.

Algoritam Random Forest u biti je mnogo pojedinačnih klasifikatora stabla odlučivanja povezanih u moćniji klasifikator.

Korištenje električnih romobila ističe Naivni Bayesov klasifikator izračunava vjerojatnost da se određena podatkovna točka dogodila na temelju vjerojatnosti pojavljivanja prethodnog događaja. Temelji se na Bayesovom teoremu i smješta podatkovne točke u klase na temelju njihove izračunate vjerojatnosti. Pri implementaciji Naivnog Bayesovog klasifikatora, pretpostavlja se da svi prediktori imaju isti utjecaj na ishod klase.

An Umjetna neuronska mreža, ili višeslojni perceptron, algoritmi su strojnog učenja inspirirani strukturom i funkcijom ljudskog mozga. Umjetne neuronske mreže dobile su svoje ime po činjenici da su sastavljene od mnogo čvorova/neurona povezanih zajedno. Svaki neuron manipulira podacima matematičkom funkcijom. U umjetnim neuronskim mrežama postoje ulazni slojevi, skriveni slojevi i izlazni slojevi.

Skriveni sloj neuronske mreže mjesto je gdje se podaci zapravo tumače i analiziraju u potrazi za uzorcima. Drugim riječima, tu algoritam uči. Više spojenih neurona čini složenije mreže koje mogu naučiti složenije obrasce.

Vrste učenja bez nadzora

Algoritmi za nenadzirano učenje uključuju:

  • K-znači grupiranje
  • Autoenkoderi
  • Analiza glavne komponente

K-znači grupiranje je nenadzirana tehnika klasifikacije, a radi odvajanjem točaka podataka u klastere ili grupe na temelju njihovih značajki. K-means klasteriranje analizira značajke pronađene u podatkovnim točkama i razlikuje uzorke u njima koji čine podatkovne točke pronađene u danom klasteru klase sličnijima jedna drugoj nego što jesu klasterima koji sadrže druge podatkovne točke. To se postiže postavljanjem mogućih središta za klaster ili centroide u graf podataka i ponovnim dodjeljivanjem položaja centroida dok se ne pronađe položaj koji minimalizira udaljenost između centroida i točaka koje pripadaju toj klasi centroida. Istraživač može odrediti željeni broj klastera.

Analiza glavne komponente je tehnika koja smanjuje veliki broj značajki/varijabli u manji prostor značajki/manje značajki. "Glavne komponente" podatkovnih točaka odabrane su za očuvanje, dok su ostale značajke sabijene u manji prikaz. Odnos između izvornih podatkovnih napitaka je sačuvan, ali budući da je složenost podatkovnih točaka jednostavnija, podatke je lakše kvantificirati i opisati.

Autoenkoderi su inačice neuronskih mreža koje se mogu primijeniti na zadatke učenja bez nadzora. Autokoderi su sposobni uzeti neoznačene podatke slobodnog oblika i transformirati ih u podatke koje neuronska mreža može koristiti, u osnovi stvarajući vlastite označene podatke za obuku. Cilj autoenkodera je pretvoriti ulazne podatke i ponovno ih izgraditi što je točnije moguće, tako da je u poticaju mreže odrediti koje su značajke najvažnije i izdvojiti ih.

Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.