stubs Kas ir gradienta palielināšana? - Apvienojieties.AI
Savienoties ar mums
AI meistarklase:

AI 101

Kas ir gradienta palielināšana?

mm
Atjaunināts on

Izplatīts mašīnmācīšanās modeļa veids, kas ir izdevies ļoti noderīgs datu zinātnes konkursos, ir gradienta veicināšanas modelis. Gradienta palielināšana būtībā ir vāju mācību modeļu pārvēršanas process spēcīgos mācību modeļos. Bet kā tieši tas tiek paveikts? Sīkāk apskatīsim gradienta paaugstināšanas algoritmus un labākus izprast gradienta paaugstināšanas modeli pārvērš vājos izglītojamos par spēcīgiem audzēkņiem.

Gradienta pastiprināšanas definēšana

Šī raksta mērķis ir sniegt jums labu intuīciju par to, kas ir gradienta palielināšana, bez daudziem algoritmu pamatā esošās matemātikas sadalījumiem. Kad esat sapratis, kā gradienta palielināšana darbojas augstā līmenī, jūs tiekat mudināts iedziļināties un izpētīt matemātiku, kas to padara iespējamu.

Sāksim, definējot, ko nozīmē “uzlabot” izglītojamo. Vāji apmācāmie tiek pārvērsti par spēcīgiem izglītojamajiem, pielāgojot mācīšanās modeļa īpašības. Kāds tieši mācību algoritms tiek uzlabots?

Modeļu uzlabošana darbojas, papildinot citu izplatītu mašīnmācīšanās modeli, lēmumu koks.

A lēmumu koks modelis darbojas, sadalot datu kopu mazākās un mazākās daļās, un, tiklīdz apakškopas vairs nevar sadalīt, rezultāts ir koks ar mezgliem un lapām. Lēmumu koka mezgli ir tie, kur lēmumi par datu punktiem tiek pieņemti, izmantojot dažādus filtrēšanas kritērijus. Lapas lēmumu kokā ir datu punkti, kas ir klasificēti. Lēmumu koka algoritmi var apstrādāt gan skaitliskus, gan kategoriskus datus, un koka sadalījumi ir balstīti uz konkrētiem mainīgajiem/funkcijām.

Ilustrācija par to, kā tiek apmācīti modeļi, kas uzlabo paaugstināšanu.
Foto: SeattleDataBuy, izmantojot Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

Viens no paaugstināšanas algoritma veidiem ir AdaBoost algoritms. AdaBoost algoritmi sākas, apmācot lēmumu koka modeli un katram novērojumam piešķirot vienādu svaru. Pēc tam, kad ir novērtēta pirmā koka precizitāte, dažādu novērojumu svari tiek pielāgoti. Novērojumiem, kurus bija viegli klasificēt, tiek samazināts svars, savukārt novērojumiem, kurus bija grūti klasificēt, to svars ir palielināts. Izmantojot šos koriģētos svarus, tiek izveidots otrs koks ar mērķi, lai otrā koka prognozes būtu precīzākas nekā pirmā koka prognozes.

Modelis tagad sastāv no sākotnējā koka un jaunā koka (vai Tree 1 + Tree 2) prognozēm. Klasifikācijas precizitāte tiek vēlreiz novērtēta, pamatojoties uz jauno modeli. Trešais koks tiek izveidots, pamatojoties uz modeļa aprēķināto kļūdu, un svari tiek vēlreiz pielāgoti. Šis process turpinās noteiktam iterāciju skaitam, un galīgais modelis ir ansambļa modelis, kas izmanto visu iepriekš konstruēto koku prognožu svērto summu.

Iepriekš aprakstītajā procesā tiek izmantoti lēmumu koki un bāzes prognozētāji/modeļi, tomēr veicinošu pieeju var veikt ar plašu modeļu klāstu, piemēram, daudziem standarta klasifikatora un regresora modeļiem. Galvenie jēdzieni, kas jāsaprot, ir tādi, ka nākamie prognozētāji mācās no iepriekšējo pieļautajām kļūdām un ka prognozētāji tiek veidoti secīgi.

Algoritmu uzlabošanas galvenā priekšrocība ir tā, ka salīdzinājumā ar citiem mašīnmācīšanās modeļiem ir nepieciešams mazāk laika, lai atrastu pašreizējās prognozes. Tomēr, izmantojot pastiprināšanas algoritmus, ir jābūt uzmanīgiem, jo ​​tie ir pakļauti pārmērībai.

Gradienta palielināšana

Tagad apskatīsim vienu no visizplatītākajiem pastiprināšanas algoritmiem. Gradientu pastiprināšanas modeļi (GBM) ir pazīstami ar savu augsto precizitāti, un tie papildina AdaBoost izmantotos vispārīgos principus.

Galvenā atšķirība starp gradienta palielināšanas modeli un AdaBoost ir tā, ka GBM izmanto atšķirīgu metodi, lai aprēķinātu, kuri apmācāmie nepareizi identificē datu punktus. AdaBoost aprēķina, kur modelim ir nepietiekama veiktspēja, pārbaudot datu punktus, kas ir ļoti svērti. Tikmēr GBM izmanto gradientus, lai noteiktu izglītojamo precizitāti, modelim piemērojot zaudēšanas funkciju. Zaudējumu funkcijas ir veids, kā izmērīt modeļa atbilstību datu kopai, aprēķinot kļūdu un optimizējot modeli, lai samazinātu šo kļūdu. GBM ļauj lietotājam optimizēt noteiktu zaudējumu funkciju, pamatojoties uz vēlamo mērķi.

Visbiežāk izmantotās zaudēšanas funkcijas izmantošana - Vidējā kvadrāta kļūda (MSE) - kā piemērs, gradienta nolaišanās tiek izmantots, lai atjauninātu prognozes, pamatojoties uz iepriekš noteiktu mācīšanās ātrumu, lai atrastu vērtības, kurās zaudējumi ir minimāli.

Lai padarītu to skaidrāku:

Jaunā modeļa prognozes = izejas mainīgie - vecas nepilnīgas prognozes.

Statistiskākā nozīmē GBM mērķis ir atrast atbilstošus modeļus modeļa atlikumos, pielāgojot modeli, lai tas atbilstu modelim un tuvinātu atlikumus pēc iespējas tuvāk nullei. Ja veiktu modeļa prognožu regresiju, atlikumi tiktu sadalīti ap 0 (ideāla atbilstība), un GBM atrod modeļus atlikumos un atjaunina modeli atbilstoši šiem modeļiem.

Citiem vārdiem sakot, prognozes tiek atjauninātas tā, lai visu atlikuma summa būtu pēc iespējas tuvāka 0, kas nozīmē, ka prognozētās vērtības būs ļoti tuvas faktiskajām vērtībām.

Ņemiet vērā, ka GBM var izmantot dažādas citas zaudēšanas funkcijas (piemēram, logaritmiskos zudumus). MSE tika izvēlēta iepriekš vienkāršības labad.

Variācijas gradientu paaugstināšanas modeļiem

Gradienta pastiprināšanas modeļi ir alkatīgi algoritmi, kas ir pakļauti datu kopai pārmērībai. No tā var pasargāt ar vairākas dažādas metodes kas var uzlabot GBM veiktspēju.

GBM var regulēt ar četrām dažādām metodēm: saraušanās, koka ierobežojumi, stohastiskā gradienta palielināšana un sodīta mācīšanās.

Saraušanās

Kā minēts iepriekš, GBM prognozes tiek summētas secīgi. Sadaļā “Rukuma” tiek koriģēti katra koka pieskaitījumi kopējai summai. Tiek izmantoti svari, kas palēnina algoritma mācīšanās ātrumu, tāpēc modelim ir jāpievieno vairāk koku, kas parasti uzlabo modeļa noturību un veiktspēju. Kompromiss ir tāds, ka modeļa apmācībai nepieciešams ilgāks laiks.

Koku ierobežojumi

Ierobežojot koku ar dažādiem pielāgojumiem, piemēram, pievienojot kokam lielāku dziļumu vai palielinot mezglu vai lapu skaitu kokā, modelim var būt grūtāk pielāgoties. Ierobežojuma uzlikšana minimālajam novērojumu skaitam vienā sadalījumā rada līdzīgu efektu. Vēlreiz kompromiss ir tāds, ka modeļa apmācība prasīs ilgāku laiku.

Nejauša izlase

Atsevišķus apmācāmos var izveidot, izmantojot stohastisku procesu, pamatojoties uz nejauši atlasītiem apmācības datu kopas apakšzīmogiem. Tas samazina korelācijas starp kokiem, kas pasargā no pārklāšanas. Datu kopu var apzīmogot pirms koku izveides vai pirms koka sadalīšanas.

Sodīta mācīšanās

Papildus modeļa ierobežošanai, ierobežojot koka struktūru, ir iespējams izmantot regresijas koku. Regresijas kokiem katrai lapai ir pievienotas skaitliskās vērtības, un tās darbojas kā svari, un tos var pielāgot, izmantojot parastās regularizācijas funkcijas, piemēram, L1 un L2 regularizāciju.

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.