stomp Wat is Masjienleer? - Verenig.AI
Verbinding met ons

AI 101

Wat is masjienleer?

mm
Opgedateer on

Masjienleer is een van die vinnigste groeiende tegnologiese velde, maar ten spyte van hoe gereeld die woorde "masjienleer" rondgeslinger word, kan dit moeilik wees om te verstaan ​​wat masjienleer presies is.

Masjienleer verwys nie net na een ding nie, dit is 'n sambreelterm wat op baie verskillende konsepte en tegnieke toegepas kan word. Om masjienleer te verstaan ​​beteken om vertroud te wees met verskillende vorme van modelanalise, veranderlikes en algoritmes. Kom ons kyk noukeurig na masjienleer om beter te verstaan ​​wat dit behels.

Wat is masjienleer?

Terwyl die term masjienleer op baie verskillende dinge toegepas kan word, verwys die term in die algemeen na die in staat stel om 'n rekenaar in staat te stel om take uit te voer sonder om eksplisiete reël-vir-reël instruksies te ontvang om dit te doen. 'n Masjienleerspesialis hoef nie al die stappe uit te skryf wat nodig is om die probleem op te los nie, want die rekenaar is in staat om te "leer" deur patrone binne die data te ontleed en hierdie patrone na nuwe data te veralgemeen.

Masjienleerstelsels het drie basiese dele:

  • Insette
  • Algoritmes
  • Uitsette

Die insette is die data wat in die masjienleerstelsel ingevoer word, en die invoerdata kan in etikette en kenmerke verdeel word. Kenmerke is die relevante veranderlikes, die veranderlikes wat ontleed sal word om patrone te leer en gevolgtrekkings te maak. Intussen is die etikette klasse/beskrywings wat aan die individuele gevalle van die data gegee word.

Kenmerke en etikette kan in twee verskillende tipes masjienleerprobleme gebruik word: leer onder toesig en leer sonder toesig.

Leer sonder toesig vs. Onder toesig

In begeleide leer, word die insetdata vergesel van 'n grondwaarheid. Leerprobleme onder toesig het die korrekte uitsetwaardes as deel van die datastel, dus is die verwagte klasse vooraf bekend. Dit maak dit vir die datawetenskaplike moontlik om die werkverrigting van die algoritme na te gaan deur die data op 'n toetsdatastel te toets en te sien watter persentasie items korrek geklassifiseer is.

In kontras, onbewaakte leer probleme het nie grondwaarheidsetikette aan hulle geheg nie. 'n Masjienleeralgoritme wat opgelei is om leertake sonder toesig uit te voer, moet self die relevante patrone in die data kan aflei.

Onder toesig leeralgoritmes word tipies gebruik vir klassifikasieprobleme, waar 'n mens 'n groot datastel het wat gevul is met gevalle wat in een van baie verskillende klasse gesorteer moet word. 'n Ander tipe leer onder toesig is 'n regressietaak, waar die waarde-uitset deur die algoritme kontinu van aard is in plaas van kategories.

Intussen word leeralgoritmes sonder toesig gebruik vir take soos digtheidskatting, groepering en voorstellingleer. Hierdie drie take benodig die masjienleermodel om die struktuur van die data af te lei, daar is geen voorafbepaalde klasse aan die model gegee nie.

Kom ons kyk kortliks na sommige van die mees algemene algoritmes wat in beide leer sonder toesig en leer onder toesig gebruik word.

Tipes leer onder toesig

Algemene algoritmes vir leer onder toesig sluit in:

  • Naïewe Bayes
  • Ondersteun vektormasjiene
  • Logistieke regressie
  • Willekeurige woude
  • Kunsmatige neurale netwerke

Ondersteun vektormasjiene is algoritmes wat 'n datastel in verskillende klasse verdeel. Datapunte word in groepe gegroepeer deur lyne te trek wat die klasse van mekaar skei. Punte wat aan die een kant van die lyn gevind word, sal aan een klas behoort, terwyl die punte aan die ander kant van die lyn 'n ander klas is. Ondersteuningsvektormasjiene poog om die afstand tussen die lyn en die punte wat aan weerskante van die lyn gevind word, te maksimeer, en hoe groter die afstand, hoe meer vertroue is die klassifiseerder dat die punt aan een klas behoort en nie 'n ander klas nie.

Logistieke regressie is 'n algoritme wat in binêre klassifikasietake gebruik word wanneer datapunte geklassifiseer moet word as wat aan een van twee klasse behoort. Logistiese regressie werk deur die datapunt óf 'n 1 óf 'n 0 te benoem. As die waargenome waarde van die datapunt 0.49 of laer is, word dit as 0 geklassifiseer, terwyl as dit 0.5 of hoër is dit as 1 geklassifiseer word.

Besluitboomalgoritmes werk deur datastelle in kleiner en kleiner fragmente te verdeel. Die presiese kriteria wat gebruik word om die data te verdeel, is aan die masjienleer-ingenieur, maar die doel is om die data uiteindelik in enkele datapunte te verdeel, wat dan met 'n sleutel geklassifiseer sal word.

'n Random Forest-algoritme is in wese baie enkelbeslissingsboomklassifiseerders wat saamgeskakel is in 'n kragtiger klassifiseerder.

Die Naïewe Bayes-klassifiseerder bereken die waarskynlikheid dat 'n gegewe datapunt plaasgevind het gebaseer op die waarskynlikheid dat 'n vorige gebeurtenis sal plaasvind. Dit is gebaseer op Bayes Stelling en dit plaas die datapunte in klasse gebaseer op hul berekende waarskynlikheid. Wanneer 'n Naïewe Bayes-klassifiseerder geïmplementeer word, word aanvaar dat al die voorspellers dieselfde invloed op die klasuitkoms het.

An Kunsmatige neurale netwerk, of multi-laag perceptron, is masjienleeralgoritmes geïnspireer deur die struktuur en funksie van die menslike brein. Kunsmatige neurale netwerke kry hul naam van die feit dat hulle gemaak is uit baie nodusse/neurone wat aan mekaar gekoppel is. Elke neuron manipuleer die data met 'n wiskundige funksie. In kunsmatige neurale netwerke is daar invoerlae, versteekte lae en uitsetlae.

Die versteekte laag van die neurale netwerk is waar die data eintlik geïnterpreteer en vir patrone ontleed word. Met ander woorde, dit is waar die algoritme leer. Meer neurone wat saamgevoeg is, maak meer komplekse netwerke in staat om meer komplekse patrone te leer.

Tipes leer sonder toesig

Leeralgoritmes sonder toesig sluit in:

  • K-beteken groepering
  • Outo-enkodeerders
  • Ontleding van die hoofkomponent

K-beteken groepering is 'n klassifikasietegniek sonder toesig, en dit werk deur datapunte in groepe of groepe te skei op grond van hul kenmerke. K-beteken groepering ontleed die kenmerke wat in die datapunte gevind word en onderskei patrone daarin wat die datapunte wat in 'n gegewe klasgroepering gevind word meer soortgelyk aan mekaar maak as wat hulle is aan groepe wat die ander datapunte bevat. Dit word bewerkstellig deur moontlike middelpunte vir die tros, of sentroïede, in 'n grafiek van die data te plaas en die posisie van die sentroïed te hertoeken totdat 'n posisie gevind word wat die afstand tussen die sentroïde en die punte wat aan daardie sentroïde se klas behoort minimaliseer. Die navorser kan die verlangde aantal trosse spesifiseer.

Ontleding van die hoofkomponent is 'n tegniek wat groot getalle kenmerke/veranderlikes verminder tot 'n kleiner kenmerkspasie/minder kenmerke. Die "hoofkomponente" van die datapunte word vir bewaring gekies, terwyl die ander kenmerke in 'n kleiner voorstelling saamgepers word. Die verwantskap tussen die oorspronklike datadrankies word bewaar, maar aangesien die kompleksiteit van die datapunte eenvoudiger is, is die data makliker om te kwantifiseer en te beskryf.

Outo-enkodeerders is weergawes van neurale netwerke wat toegepas kan word op leertake sonder toesig. Outo-enkodeerders is in staat om ongemerkte, vrye vorm data te neem en dit te omskep in data wat 'n neurale netwerk in staat is om te gebruik, basies om hul eie geëtiketteerde opleidingsdata te skep. Die doel van 'n outo-enkodeerder is om die invoerdata om te skakel en dit so akkuraat as moontlik te herbou, so dit is in die aansporing van die netwerk om te bepaal watter kenmerke die belangrikste is en dit te onttrek.

Blogger en programmeerder met spesialiteite in masjienleer en Diep leer onderwerpe. Daniel hoop om ander te help om die krag van KI vir sosiale voordeel te gebruik.