stubbur Hvað er Ensemble Learning? - Unite.AI
Tengja við okkur

AI 101

Hvað er Ensemble Learning?

mm
Uppfært on

Ein öflugasta vélanámstæknin er ensemble learning. Saman að læra er notkun margra vélanámslíkana til að bæta áreiðanleika og nákvæmni spár. Samt hvernig leiðir notkun margra vélanámslíkana til nákvæmari spár? Hvers konar tækni er notuð til að búa til ensemble námslíkön? Við munum kanna svarið við þessum spurningum, skoða rökin að baki því að nota ensemble módel og helstu leiðir til að búa til ensemble módel.

Hvað er Ensemble Learning?

Einfaldlega sagt, ensemble learning er ferlið við að þjálfa mörg vélanámslíkön og sameina úttak þeirra saman. Mismunandi líkön eru notuð sem grunn til að búa til eitt ákjósanlegt forspárlíkan. Með því að sameina fjölbreytt safn einstakra vélanámslíkana getur það bætt stöðugleika heildarlíkansins, sem leiðir til nákvæmari spár. Ensemble learning módel eru oft áreiðanlegri en einstök líkön og þar af leiðandi eru þau oft í fyrsta sæti í mörgum vélanámskeppnum.

Það eru mismunandi aðferðir sem verkfræðingur getur notað til að búa til ensemble námslíkan. Einföld ensemble námstækni felur í sér hluti eins og að meðaltal úttaks mismunandi líkana, á meðan það eru líka flóknari aðferðir og reiknirit þróaðar sérstaklega til að sameina spár margra grunnnema/líkana saman.

Af hverju að nota Ensemble þjálfunaraðferðir?

Vélræn námslíkön geta verið frábrugðin hvert öðru af ýmsum ástæðum. Mismunandi vélanámslíkön geta starfað á mismunandi sýnum af þýðisgögnum, mismunandi líkanaaðferðir geta verið notaðar og mismunandi tilgátu gæti verið notuð.

Ímyndaðu þér að þú sért að spila trivia leik með stórum hópi fólks. Ef þú ert sjálfur í liði, þá eru örugglega nokkur efni sem þú hefur þekkingu á og mörg efni sem þú hefur enga þekkingu á. Gerðu nú ráð fyrir að þú sért að spila í liði með öðru fólki. Rétt eins og þú munu þeir hafa nokkra þekkingu varðandi eigin sérgreinar og enga þekkingu á öðrum efnum. Samt þegar þekking þín er sameinuð hefurðu nákvæmari getgátur á fleiri sviðum og fjöldi efnisþátta sem teymið þitt skortir þekkingu á minnkar. Þetta er sama meginreglan og liggur til grundvallar ensemble námi, sem sameinar spár mismunandi liðsmanna (stök líkön) til að bæta nákvæmni og lágmarka villur.

Tölfræðimenn hafa sannað að þegar hópur fólks er beðinn um að giska á rétt svar við tiltekinni spurningu með ýmsum svarmöguleikum mynda öll svör þeirra líkindadreifingu. Fólkið sem raunverulega veit rétt svar mun velja rétta svarið af öryggi, en fólkið sem velur röng svör mun dreifa getgátum sínum yfir svið hugsanlegra rangra svara. Ef þú og tveir vinir þínir veistu að rétta svarið er A, kjósið þið öll þrjú A, á meðan hinir þrír aðrir í liðinu þínu sem vita ekki svarið eru líklegar til rangt. giska á B, C, D eða E. Niðurstaðan er sú að A hefur þrjú atkvæði og líklegt er að hin svörin hafi aðeins eitt eða tvö atkvæði að hámarki.

Allar gerðir hafa einhverjar villur. Villurnar fyrir eitt líkan verða frábrugðnar villunum sem framleiddar eru af öðru líkani, þar sem líkanin sjálf eru ólík af þeim ástæðum sem lýst er hér að ofan. Þegar allar villurnar eru skoðaðar verða þær ekki settar í hópa utan um eitt svar eða annað, frekar dreifast þær. Röngu getgáturnar dreifast í raun um öll möguleg röng svör og hætta við hvort annað. Á sama tíma verða réttar getgátur frá mismunandi gerðum settar saman um hið sanna, rétta svar. Þegar ensemble þjálfunaraðferðir eru notaðar, rétt svar er hægt að finna með meiri áreiðanleika.

Einfaldar ensemble þjálfunaraðferðir

Einfaldar ensemble þjálfunaraðferðir fela venjulega bara í sér beitingu tölfræðileg samantektartæknis, svo sem að ákvarða ham, meðaltal eða vegið meðaltal safns spár.

Mode vísar til þess þáttar sem kemur oftast fyrir innan talnasetts. Til þess að fá stillinguna skila einstöku námslíkön spár sínar og þessar spár teljast atkvæði í átt að lokaspánni. Ákvörðun meðaltals spánna er einfaldlega gert með því að reikna út meðaltal spánna, námundað að næstu heilu tölu. Að lokum er hægt að reikna út vegið meðaltal með því að gefa mismunandi vægi á líkönin sem notuð eru til að búa til spár, þar sem vægin tákna talið mikilvægi þess líkans. Tölulega framsetning flokksspár er margfölduð við hlið þyngdar frá 0 til 1.0, einstakar vegnu spár eru síðan lagðar saman og niðurstaðan er námunduð að næstu heilu tölu.

Ítarlegar ensemble þjálfunaraðferðir

Það eru þrjár aðal háþróaðar ensemble þjálfunaraðferðir, sem hver um sig er hönnuð til að takast á við ákveðna tegund vélanámsvandamála. „Bagging“ tækni eru notuð til að minnka dreifni spár líkans, þar sem dreifni vísar til þess hversu mikið útkoman spár er frábrugðin sömu athugunum. „Boosting“ tækni eru notuð til að berjast gegn hlutdrægni módelanna. Loksins, "stafla" er notað til að bæta spár almennt.

Ensemble námsaðferðum sjálfum má almennt skipta í einn af tveimur mismunandi hópum: raðaðferðir og samhliða ensemble aðferðir.

Sequential ensemble aðferðir fá nafnið „sequential“ vegna þess að grunnnemar/líkön eru mynduð í röð. Þegar um er að ræða raðbundnar aðferðir er grundvallarhugmyndin sú að ósjálfstæði grunnnemandanna sé nýtt til að fá nákvæmari spár. Mismerkt dæmi hafa þyngd aðlöguð á meðan rétt merkt dæmi halda sömu þyngd. Í hvert sinn sem nýr nemandi er myndaður breytast lóðin og nákvæmni (vonandi) batnar.

Öfugt við raðbundin ensemble módel, samhliða ensemble aðferðir búa til grunn nemendur samhliða. Þegar farið er í samhliða nám er hugmyndin að nýta þá staðreynd að grunnnemar hafa sjálfstæði þar sem hægt er að lækka almenna villuhlutfallið með því að miða spár einstakra nemenda.

Ensemble þjálfunaraðferðir geta ýmist verið einsleitar eða ólíkar í eðli sínu. Flestar ensemble námsaðferðir eru einsleitar, sem þýðir að þær nota eina tegund af grunnnámslíkani/algrími. Aftur á móti nýta ólíkar hópar mismunandi námsalgrím, auka fjölbreytni og breyta nemendum til að tryggja að nákvæmni sé eins mikil og mögulegt er.

Dæmi um Ensemble Learning Algorithms

Sjónræn uppörvun fyrir ensemble. Mynd: Sirakorn í gegnum Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Dæmi um sequential ensemble aðferðir eru ma AdaBoost, XGBoostog Aukning á hallatré. Þetta eru allt uppörvandi gerðir. Fyrir þessi uppörvunarlíkön er markmiðið að breyta veikum nemendum sem standa sig ekki vel í öflugri nemendur. Líkön eins og AdaBoost og XGBoost byrja með mörgum veikum nemendum sem standa sig aðeins betur en að giska af handahófi. Þegar þjálfunin heldur áfram eru lóðum settar á gögnin og leiðrétt. Tilvik sem voru rangt flokkuð af nemendum í fyrri þjálfunarlotum fá meira vægi. Eftir að þetta ferli er endurtekið fyrir þann fjölda æfingalota sem óskað er eftir, eru spárnar sameinaðar með annað hvort veginni summa (fyrir aðhvarfsverkefni) og vegið atkvæði (fyrir flokkunarverkefni).

The bagging lærdómsferli. Mynd: SeattleDataGuy í gegnum Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Dæmi um samhliða ensemble líkan er a Random Forest flokkari, og Random Forests er líka dæmi um pokatækni. Hugtakið „bagging“ kemur frá „bootstrap aggregation“. Sýnishorn eru tekin úr heildargagnagrunninum með því að nota sýnatökutækni sem kallast „bootstrap sampling“, sem eru notuð af grunnnemendum til að spá. Fyrir flokkunarverkefni er úttak grunnlíkananna safnað saman með atkvæðagreiðslu, en meðaltal þeirra samanborið fyrir aðhvarfsverkefni. Random Forests notar einstök ákvörðunartré sem grunnnemendur og hvert tré í hópnum er byggt með öðru sýnishorni úr gagnasafninu. Handahófskennt undirmengi eiginleika er einnig notað til að búa til tréð. Leiðir til mjög slembiraðaðra einstakra ákvarðanatrjáa, sem eru öll sameinuð til að veita áreiðanlegar spár.

Sjónræn stöflun fyrir samstæðu. Mynd: Supun Setunga í gegnum Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Hvað varðar stöflun ensemble tækni, eru mörg aðhvarfs- eða flokkunarlíkön sameinuð í gegnum hærra stig, meta-líkan. Neðra stigið, grunnlíkön eru þjálfun með því að fá allt gagnasafnið gefið. Úttak grunnlíkananna eru síðan notuð sem eiginleikar til að þjálfa meta-líkanið. Stöflunarlíkön eru oft ólík í eðli sínu.

Bloggari og forritari með sérsvið í vél Learning og Deep Learning efni. Daniel vonast til að hjálpa öðrum að nota kraft gervigreindar í félagslegum tilgangi.