stubs Kas ir mašīnmācīšanās? - Apvienojieties.AI
Savienoties ar mums
AI meistarklase:

AI 101

Kas ir mašīnmācība?

mm
Atjaunināts on

Mašīnmācība ir viena no visstraujāk augošajām tehnoloģiju jomām, taču, neskatoties uz to, cik bieži tiek mētāti vārdi “mašīnmācība”, var būt grūti precīzi saprast, kas ir mašīnmācīšanās.

mašīna mācīšanās neattiecas tikai uz vienu lietu, tas ir vispārīgs termins, ko var attiecināt uz daudziem dažādiem jēdzieniem un paņēmieniem. Izprast mašīnmācīšanos nozīmē iepazīties ar dažādiem modeļu analīzes veidiem, mainīgajiem lielumiem un algoritmiem. Apskatīsim mašīnmācīšanos, lai labāk saprastu, ko tā ietver.

Kas ir mašīnmācīšanās?

Lai gan terminu mašīnmācīšanās var attiecināt uz daudzām dažādām lietām, kopumā šis termins attiecas uz iespēju datoram veikt uzdevumus, nesaņemot skaidrus norādījumus par to. Mašīnmācīšanās speciālistam nav jāizraksta visas problēmas risināšanai nepieciešamās darbības, jo dators spēj “mācīties”, analizējot datos esošos modeļus un vispārinot šos modeļus uz jauniem datiem.

Mašīnmācīšanās sistēmām ir trīs galvenās daļas:

  • Ieejas
  • Algoritmi
  • Izejas

Ievades ir dati, kas tiek ievadīti mašīnmācīšanās sistēmā, un ievades datus var iedalīt etiķetēs un funkcijās. Funkcijas ir attiecīgie mainīgie, mainīgie, kas tiks analizēti, lai uzzinātu modeļus un izdarītu secinājumus. Tikmēr etiķetes ir klases/apraksti, kas piešķirti atsevišķiem datu gadījumiem.

Funkcijas un iezīmes var izmantot divu dažādu veidu mašīnmācīšanās problēmās: uzraudzītā apmācībā un bez uzraudzības.

Neuzraudzīta mācīšanās salīdzinājumā ar uzraudzītu mācīšanos

In uzraudzīta mācīšanās, ievades datiem ir pievienota pamatpatiesība. Uzraudzītām mācīšanās problēmām ir pareizas izvades vērtības kā daļa no datu kopas, tāpēc paredzamās klases ir zināmas iepriekš. Tādējādi datu zinātnieks var pārbaudīt algoritma veiktspēju, pārbaudot datus testa datu kopā un redzot, cik daudz vienumu ir pareizi klasificēti.

Turpretī mācīšanās bez uzraudzības problēmām nav piestiprinātas patiesības etiķetes. Mašīnmācīšanās algoritmam, kas apmācīts veikt nekontrolētus mācību uzdevumus, ir jāspēj pašam izsecināt attiecīgos datu modeļus.

Uzraudzīti mācību algoritmi parasti tiek izmantoti klasifikācijas problēmām, kur ir liela datu kopa, kas piepildīta ar gadījumiem, kas jāsakārto vienā no daudzajām klasēm. Cits uzraudzītās mācīšanās veids ir regresijas uzdevums, kurā algoritma izvadītā vērtība ir nepārtraukta, nevis kategoriska.

Tikmēr neuzraudzīti mācību algoritmi tiek izmantoti tādiem uzdevumiem kā blīvuma novērtēšana, klasteru veidošana un attēlojuma mācīšanās. Šiem trim uzdevumiem ir nepieciešams mašīnmācīšanās modelis, lai secinātu datu struktūru, modelim nav iepriekš definētu klašu.

Īsi apskatīsim dažus no visizplatītākajiem algoritmiem, kas tiek izmantoti gan bez uzraudzības, gan uzraudzītā mācībā.

Uzraudzītās mācīšanās veidi

Kopējie uzraudzītie mācību algoritmi ietver:

  • Naivie Beiji
  • Atbalsta vektora mašīnas
  • Loģistiskā regresija
  • Izlases meži
  • Mākslīgie neironu tīkli

Atbalsta vektora mašīnas ir algoritmi, kas sadala datu kopu dažādās klasēs. Datu punkti tiek grupēti klasteros, zīmējot līnijas, kas atdala klases vienu no otras. Punkti, kas atrodas vienā līnijas pusē, piederēs vienai klasei, savukārt punkti, kas atrodas līnijas otrā pusē, ir cita klase. Atbalsta vektoru mašīnu mērķis ir maksimāli palielināt attālumu starp līniju un punktiem, kas atrodas abās līnijas pusēs, un jo lielāks attālums, jo pārliecinātāks ir klasifikators, ka punkts pieder vienai klasei, nevis citai klasei.

Loģistiskā regresija ir algoritms, ko izmanto binārās klasifikācijas uzdevumos, kad datu punkti jāklasificē kā piederoši vienai no divām klasēm. Loģistiskā regresija darbojas, apzīmējot datu punktu ar 1 vai 0. Ja datu punkta uztvertā vērtība ir 0.49 vai mazāka, tā tiek klasificēta kā 0, savukārt, ja tā ir 0.5 vai lielāka, tā tiek klasificēta kā 1.

Lēmumu koka algoritmi darbojas, sadalot datu kopas mazākos un mazākos fragmentos. Precīzi datu sadalīšanas kritēriji ir mašīnmācīšanās inženiera ziņā, taču mērķis ir galu galā sadalīt datus atsevišķos datu punktos, kas pēc tam tiks klasificēti, izmantojot atslēgu.

Random Forest algoritms būtībā ir daudzi atsevišķi Lēmumu koka klasifikatori, kas ir savienoti kopā jaudīgākā klasifikatorā.

Jūsu darbs IR Klientu apkalpošana Naivs Bayes klasifikators aprēķina varbūtību, ka konkrētais datu punkts ir noticis, pamatojoties uz iepriekšēja notikuma iespējamību. Tas ir balstīts uz Bayes teorēmu un ievieto datu punktus klasēs, pamatojoties uz to aprēķināto varbūtību. Ieviešot naivu Bayes klasifikatoru, tiek pieņemts, ka visiem prognozētājiem ir vienāda ietekme uz klases iznākumu.

An Mākslīgais neironu tīkls, vai daudzslāņu perceptrons, ir mašīnmācīšanās algoritmi, kuru pamatā ir cilvēka smadzeņu struktūra un funkcija. Mākslīgie neironu tīkli savu nosaukumu ieguvuši tāpēc, ka tie ir veidoti no daudziem kopā savienotiem mezgliem/neironiem. Katrs neirons manipulē ar datiem ar matemātisku funkciju. Mākslīgajos neironu tīklos ir ievades slāņi, slēptie slāņi un izvades slāņi.

Neironu tīkla slēptais slānis ir vieta, kur dati tiek faktiski interpretēti un analizēti, lai noteiktu modeļus. Citiem vārdiem sakot, tā ir vieta, kur algoritms mācās. Vairāk neironu, kas savienoti kopā, veido sarežģītākus tīklus, kas spēj apgūt sarežģītākus modeļus.

Nepārraudzītās mācīšanās veidi

Nepārraudzīti mācību algoritmi ietver:

  • K nozīmē klasterizāciju
  • Autokodētāji
  • Galveno komponentu analīze

K nozīmē klasterizāciju ir nepārraudzīta klasifikācijas metode, un tā darbojas, sadalot datu punktus klasteros vai grupās, pamatojoties uz to iezīmēm. K-mean klasterizācija analizē datu punktos atrastās pazīmes un izšķir tajos modeļus, kas padara noteiktā klašu klasterī atrastos datu punktus vairāk līdzīgākus viens otram, nekā tie ir kopām, kas satur citus datu punktus. To panāk, datu grafikā ievietojot iespējamos klastera centrus jeb centroīdus un atkārtoti piešķirot centroīda pozīciju, līdz tiek atrasta pozīcija, kas samazina attālumu starp centroīdu un punktiem, kas pieder šī centroīda klasei. Pētnieks var norādīt vēlamo klasteru skaitu.

Galveno komponentu analīze ir paņēmiens, kas samazina lielu objektu/mainīgo skaitu līdz mazākai funkciju vietai/mazākam objektu skaitam. Datu punktu “galvenās sastāvdaļas” ir atlasītas saglabāšanai, bet pārējās funkcijas tiek saspiestas mazākā attēlojumā. Attiecības starp sākotnējo datu dziru tiek saglabātas, taču, tā kā datu punktu sarežģītība ir vienkāršāka, datus ir vieglāk kvantificēt un aprakstīt.

Autokodētāji ir neironu tīklu versijas, kuras var izmantot neuzraugotiem mācību uzdevumiem. Autokodētāji spēj uzņemt neiezīmētus, brīvas formas datus un pārveidot tos datos, ko spēj izmantot neironu tīkls, būtībā izveidojot savus marķētos apmācības datus. Autoencoder mērķis ir pārvērst ievades datus un atjaunot tos pēc iespējas precīzāk, tāpēc tas ir tīkla stimuls noteikt, kuras funkcijas ir vissvarīgākās, un tās iegūt.

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.