výhonek Co je Ensemble Learning? - Spojte se.AI
Spojte se s námi
Mistrovská třída AI:

AI 101

Co je Ensemble Learning?

mm
aktualizováno on

Jednou z nejúčinnějších technik strojového učení je souborové učení. Soubor studium je použití více modelů strojového učení ke zlepšení spolehlivosti a přesnosti předpovědí. Jak však použití více modelů strojového učení vede k přesnějším předpovědím? Jaké techniky se používají k vytváření modelů učení v souboru? Prozkoumáme odpovědi na tyto otázky a podíváme se na zdůvodnění používání modelů souborů a primární způsoby vytváření modelů souborů.

Co je Ensemble Learning?

Jednoduše řečeno, souborové učení je proces trénování více modelů strojového učení a kombinování jejich výstupů dohromady. Různé modely se používají jako základ pro vytvoření jednoho optimálního prediktivního modelu. Kombinace různorodé sady jednotlivých modelů strojového učení může zlepšit stabilitu celkového modelu, což vede k přesnějším předpovědím. Modely souborového učení jsou často spolehlivější než jednotlivé modely, a v důsledku toho se často umísťují na prvním místě v mnoha soutěžích strojového učení.

Existují různé techniky, které může inženýr použít k vytvoření modelu učení souboru. Jednoduché techniky souborového učení zahrnují věci, jako je zprůměrování výstupů různých modelů, zatímco existují také složitější metody a algoritmy vyvinuté speciálně pro kombinování předpovědí mnoha základních studentů/modelů dohromady.

Proč používat Ensemble tréninkové metody?

Modely strojového učení se mohou z různých důvodů navzájem lišit. Různé modely strojového učení mohou fungovat na různých vzorcích populačních dat, mohou být použity různé techniky modelování a mohou být použity různé hypotézy.

Představte si, že hrajete drobnou hru s velkou skupinou lidí. Pokud jste v týmu sami, určitě existují témata, o kterých máte znalosti, a mnoho témat, o kterých nemáte žádné znalosti. Nyní předpokládejme, že hrajete v týmu s jinými lidmi. Stejně jako vy budou mít určité znalosti o svých vlastních specializacích a žádné znalosti o jiných tématech. Když se však vaše znalosti zkombinují, máte přesnější odhady pro více oborů a počet témat, o kterých váš tým postrádá znalosti, se zmenšuje. Toto je stejný princip, který je základem souborového učení, kombinující předpovědi různých členů týmu (jednotlivé modely) ke zlepšení přesnosti a minimalizaci chyb.

Statistici dokázali že když je dav lidí požádán, aby uhádli správnou odpověď na danou otázku s řadou možných odpovědí, všechny jejich odpovědi tvoří rozdělení pravděpodobnosti. Lidé, kteří skutečně znají správnou odpověď, s důvěrou vyberou správnou odpověď, zatímco lidé, kteří vyberou špatné odpovědi, rozdělí své odhady napříč řadou možných nesprávných odpovědí. Vrátíme-li se k příkladu triviální hry, pokud vy a vaši dva přátelé víte, že správná odpověď je A, všichni tři budete hlasovat A, zatímco ostatní tři lidé ve vašem týmu, kteří odpověď neznají, pravděpodobně budou nesprávně hádejte B, C, D nebo E. Výsledkem je, že A má tři hlasy a ostatní odpovědi budou mít pravděpodobně maximálně jeden nebo dva hlasy.

Všechny modely mají určité množství chyb. Chyby pro jeden model se budou lišit od chyb vytvořených jiným modelem, protože samotné modely se liší z výše popsaných důvodů. Když jsou všechny chyby prozkoumány, nebudou seskupovat kolem jedné nebo druhé odpovědi, ale budou rozptýleny kolem. Nesprávné odhady jsou v podstatě rozprostřeny mezi všechny možné špatné odpovědi a navzájem se ruší. Mezitím budou správné odhady z různých modelů seskupeny kolem pravdivé a správné odpovědi. Když se používají metody tréninku v souboru, správnou odpověď lze nalézt s větší spolehlivostí.

Jednoduché metody školení souboru

Jednoduché tréninkové metody souboru obvykle zahrnují pouze aplikaci technika statistického shrnutís, jako je stanovení režimu, střední hodnoty nebo váženého průměru sady předpovědí.

Režim označuje nejčastěji se vyskytující prvek v rámci sady čísel. Aby bylo možné režim získat, jednotlivé modely učení vrátí své předpovědi a tyto předpovědi jsou považovány za hlasy pro konečnou předpověď. Určení průměru předpovědí se provádí jednoduše výpočtem aritmetického průměru předpovědí zaokrouhleného na nejbližší celé číslo. Nakonec lze vypočítat vážený průměr přiřazením různých vah k modelům používaným k vytváření předpovědí, přičemž váhy představují vnímanou důležitost daného modelu. Číselná reprezentace predikce třídy se vynásobí vahou od 0 do 1.0, jednotlivé vážené predikce se pak sečtou a výsledek se zaokrouhlí na nejbližší celé číslo.

Pokročilé metody školení Ensemble

Existují tři základní pokročilé techniky souborového tréninku, z nichž každá je navržena tak, aby se vypořádala se specifickým typem problému strojového učení. Techniky „pytlování“. se používají ke snížení rozptylu předpovědí modelu, přičemž rozptyl označuje, jak moc se liší výsledek předpovědí, když jsou založeny na stejném pozorování. "Posilovací" techniky se používají k boji proti zaujatosti modelů. Konečně, "skládání" se používá ke zlepšení předpovědí obecně.

Samotné metody souborového učení lze obecně rozdělit do jedné ze dvou různých skupin: sekvenční metody a metody paralelního souboru.

Sekvenční souborové metody se nazývají „sekvenční“, protože základní studenti/modely jsou generovány sekvenčně. V případě sekvenčních metod je základní myšlenkou, že závislost mezi základními studenty je využívána k získání přesnějších předpovědí. Špatně označené příklady mají svou váhu upravenou, zatímco správně označené příklady mají stejnou váhu. Pokaždé, když je vygenerován nový žák, váhy se změní a přesnost (doufejme) se zlepší.

Na rozdíl od sekvenčních souborových modelů generují metody paralelního souboru základní studenty paralelně. Při provádění paralelního souborového učení je myšlenkou využít skutečnost, že základní studenti mají nezávislost, protože obecnou chybovost lze snížit zprůměrováním předpovědí jednotlivých studentů.

Metody souborového tréninku mohou být ve své podstatě homogenní nebo heterogenní. Většina metod souborového učení je homogenní, což znamená, že používají jediný typ základního modelu učení/algoritmu. Naproti tomu heterogenní soubory využívají různé učební algoritmy, diverzifikují a variují studenty, aby zajistily co nejvyšší přesnost.

Příklady Ensemble Learning Algorithms

Vizualizace posilování souboru. Foto: Sirakorn přes Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Příklady metod sekvenčního souboru zahrnují AdaBoost, XGBoost, a Zesílení stromu gradientu. To všechno jsou posilovací modely. U těchto posilujících modelů je cílem přeměnit slabé studenty s nedostatečnou výkonností na výkonnější studenty. Modely jako AdaBoost a XGBoost začínají s mnoha slabými studenty, kteří mají o něco lepší výkon než náhodné hádání. Jak trénink pokračuje, na data jsou aplikovány váhy a upravovány. Případům, které byly nesprávně klasifikovány studenty v dřívějších kolech školení, je přikládána větší váha. Poté, co se tento proces opakuje pro požadovaný počet tréninkových kol, jsou předpovědi spojeny buď váženým součtem (pro regresní úlohy) a váženým hlasováním (pro klasifikační úlohy).

Proces učení pytlování. Foto: SeattleDataGuy přes Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Příkladem modelu paralelního souboru je a Náhodný les klasifikátor a Random Forests je také příkladem techniky pytlování. Termín „bagging“ pochází z „bootstrap aggregation“. Vzorky se odebírají z celkového souboru dat pomocí techniky vzorkování známé jako „bootstrap sampling“, kterou používají základní studenti k předpovědím. U klasifikačních úloh jsou výstupy základních modelů agregovány pomocí hlasování, zatímco u regresních úloh jsou společně zprůměrovány. Random Forests používá jednotlivé rozhodovací stromy jako své základní studenty a každý strom v souboru je vytvořen pomocí jiného vzorku z datové sady. Ke generování stromu se také používá náhodná podmnožina funkcí. To vede k vysoce náhodným jednotlivým rozhodovacím stromům, které jsou všechny kombinovány, aby poskytovaly spolehlivé předpovědi.

Vizualizace stohování souborů. Foto: Supun Setunga přes Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Pokud jde o techniky skládání souborů, vícenásobné regresní nebo klasifikační modely jsou kombinovány dohromady prostřednictvím metamodelu vyšší úrovně. Základní modely nižší úrovně se trénují tak, že se do nich vkládá celá datová sada. Výstupy základních modelů se pak používají jako funkce pro trénování meta-modelu. Modely stohovacích souborů jsou často svou povahou heterogenní.

Blogerka a programátorka se specializací v Strojové učení a Hluboké učení témata. Daniel doufá, že pomůže ostatním využívat sílu AI pro společenské dobro.