Stumm Wat ass Ensemble Learning? - Unite.AI
Connect mat eis

AI 101

Wat ass Ensemble Learning?

mm
aktualiséiert on

Ee vun de mächtegste Maschinn Léieren Techniken ass Ensemble Léieren. zesumme léieren ass d'Benotzung vu verschidde Maschinnléiermodeller fir d'Zouverlässegkeet an d'Genauegkeet vun de Prognosen ze verbesseren. Wéi och ëmmer, wéi féiert d'Benotzung vu verschidde Maschinnléiermodeller zu méi genaue Prognosen? Wéi eng Technike gi benotzt fir Ensemble Léiermodeller ze kreéieren? Mir wäerten d'Äntwert op dës Froen entdecken, e Bléck op d'Begrënnung hannert d'Benotzung vun Ensembelmodeller an déi primär Weeër fir Ensembelmodeller ze kreéieren.

Wat ass Ensemble Learning?

Einfach gesot, Ensemble Léieren ass de Prozess fir verschidde Maschinnléiermodeller ze trainéieren an hir Outputen zesummen ze kombinéieren. Déi verschidde Modeller ginn als Basis benotzt fir een optimale prévisive Modell ze kreéieren. D'Kombinatioun vun enger diverser Set vun eenzelne Maschinnléiermodeller kann d'Stabilitéit vum Gesamtmodell verbesseren, wat zu méi genaue Prognosen féiert. Ensemble Léiermodeller sinn dacks méi zouverlässeg wéi eenzel Modeller, an als Resultat placéiere se dacks als éischt a ville Maschinnléiere Concoursen.

Et gi verschidden Techniken en Ingenieur ka benotzen fir en Ensemble Léiermodell ze kreéieren. Einfach Ensemble Léiertechniken enthalen Saachen wéi d'Moyenne vun den Ausgänge vu verschiddene Modeller, wärend et och méi komplex Methoden an Algorithmen entwéckelt ginn, besonnesch fir d'Prognosen vu ville Basisléierer / Modeller zesummen ze kombinéieren.

Firwat benotzt Ensemble Training Methoden?

Maschinn Léieren Modeller kënnen aus verschiddene Grënn ënnerschiddlech sinn. Verschidde Maschinnléieremodeller kënnen op verschidde Proben vun de Bevëlkerungsdaten operéieren, verschidde Modellertechnike kënne benotzt ginn, an eng aner Hypothese kéint benotzt ginn.

Stellt Iech vir datt Dir en Trivia-Spill mat enger grousser Grupp vu Leit spillt. Wann Dir selwer an engem Team sidd, da sinn et gebonnen e puer Themen ze sinn iwwer déi Dir Wëssen hutt a vill Themen déi Dir keng Kenntnisser hutt. Gitt elo un datt Dir op enger Equipe mat anere Leit spillt. Just wéi Dir, si wäerten e bësse Wëssen iwwer hir eege Spezialitéiten hunn a kee Wëssen iwwer aner Themen. Awer wann Äert Wëssen kombinéiert ass, hutt Dir méi genee Schätzunge fir méi Felder, an d'Zuel vun den Themen déi Äert Team feelt Wëssen iwwer schrumpft. Dëst ass dee selwechte Prinzip, deen d'Ensembleléiere ënnerläit, d'Prognosen vu verschiddene Teammemberen (individuell Modeller) kombinéiert fir d'Genauegkeet ze verbesseren an d'Feeler ze minimiséieren.

Statistiker hunn bewisen datt wann eng Mass vu Leit gefrot gëtt déi richteg Äntwert fir eng bestëmmte Fro mat enger Rei vu méiglechen Äntwerten ze roden, all hir Äntwerten bilden eng Wahrscheinlechkeetsverdeelung. D'Leit, déi wierklech déi richteg Äntwert kennen, wäerten déi richteg Äntwert mat Vertrauen auswielen, während d'Leit, déi déi falsch Äntwerten auswielen, hir Guesses iwwer d'Gamme vu méigleche falschen Äntwerten verdeelen. Zréck op d'Beispill vun engem Trivia-Spill, wann Dir an Är zwee Frënn wëssen, datt déi richteg Äntwert A ass, all dräi vun iech wäerten A wielen, während déi dräi aner Leit op Ärem Team, déi d'Äntwert net wëssen, wahrscheinlech falsch sinn guess B, C, D, or E. D'Resultat ass datt A dräi Stëmmen huet an déi aner Äntwerte wahrscheinlech nëmmen een oder zwee Stëmmen maximal hunn.

All Modeller hunn e puer Feeler. D'Feeler fir ee Modell wäerte anescht sinn wéi d'Feeler, déi vun engem anere Modell produzéiert ginn, well d'Modeller selwer aus de Grënn hei uewen beschriwwe sinn. Wann all d'Feeler iwwerpréift ginn, gi se net ronderëm déi eng oder aner Äntwert zesummegefaasst, éischter verspreet. Déi falsch Schätzunge si wesentlech iwwer all méiglech falsch Äntwerten verbreet, géigesäiteg annuléieren. Mëttlerweil ginn déi richteg Guesses vun de verschiddene Modeller ronderëm déi richteg, richteg Äntwert geclustert. Wann Ensemble Trainingsmethoden benotzt ginn, déi richteg Äntwert ka mat méi Zouverlässegkeet fonnt ginn.

Einfach Ensemble Training Methoden

Einfach Ensembel Trainingsmethoden involvéieren typesch just d'Applikatioun vun statistesch Resumé Techniks, wéi d'Bestëmmung vum Modus, mëttleren oder gewiichtten Duerchschnëtt vun enger Rei vu Prognosen.

Modus bezitt sech op dat heefegst geschitt Element an enger Rei vun Zuelen. Fir de Modus ze kréien, ginn déi eenzel Léiermodeller hir Prognosen zréck an dës Prognosen ginn als Stëmme fir déi definitiv Prognose ugesinn. D'Bestëmmung vun der Moyenne vun de Prognosen gëtt einfach gemaach andeems de arithmetesche Moyenne vun de Prognosen berechent gëtt, ofgerënnt op dat nootste ganzt Ganzt. Schlussendlech kann e gewiichtten Duerchschnëtt berechent ginn andeems verschidde Gewiichter un d'Modeller ginn, déi benotzt gi fir Prognosen ze kreéieren, mat de Gewiichter déi d'perceptéiert Wichtegkeet vun deem Modell representéieren. Déi numeresch Representatioun vun der Klasseprognose gëtt niewent engem Gewiicht vun 0 op 1.0 multiplizéiert, déi eenzel gewiicht Prognosen ginn dann zesummegefaasst an d'Resultat gëtt op déi nootste ganz Zuel ofgerënnt.

Fortgeschratt Ensemble Training Methoden

Et ginn dräi primär fortgeschratt Ensembel Trainingstechniken, jidderee vun deenen entworf ass fir eng spezifesch Aart vu Maschinnléierproblem ze këmmeren. "Bagging" Techniken gi benotzt fir d'Varianz vun de Prognosen vun engem Modell ze reduzéieren, mat Varianz bezitt sech op wéi vill d'Resultat vun de Prognosen ënnerscheet wann se op der selwechter Observatioun baséieren. "Boosting" Techniken gi benotzt fir d'Basitéit vu Modeller ze bekämpfen. Endlech, "Stacken" gëtt benotzt fir Prognosen am Allgemengen ze verbesseren.

Ensemble Léiermethoden selwer kënnen allgemeng an eng vun zwou verschiddene Gruppen opgedeelt ginn: sequenziell Methoden a parallel Ensembelmethoden.

Sequentiell Ensembelmethoden kréien den Numm "sequenziell" well d'Basis Léierpersonal / Modeller sequenziell generéiert ginn. Am Fall vu sequentielle Methoden ass déi wesentlech Iddi datt d'Ofhängegkeet tëscht de Basisléierer ausgenotzt gëtt fir méi genee Prognosen ze kréien. Mislabeled Beispiller hunn hir Gewiichter ugepasst wärend richteg markéiert Beispiller déiselwecht Gewiichter behalen. All Kéier wann en neie Schüler generéiert gëtt, sinn d'Gewichte Ännerungen an d'Genauegkeet (hoffentlech) verbessert.

Am Géigesaz zu sequentiellen Ensembelmodeller generéieren parallel Ensembelmethoden d'Basisléierer parallel. Wann Dir parallel Ensembel Léieren ausféiert, ass d'Iddi d'Tatsaach auszenotzen datt d'Basisstudenten Onofhängegkeet hunn, well den allgemenge Fehlerquote ka reduzéiert ginn andeems d'Prognosen vun den eenzelne Schüler duerchschnëttlech sinn.

Ensembel Trainingsmethoden kënnen entweder homogen oder heterogen an der Natur sinn. Déi meescht Ensemble Léiermethoden sinn homogen, dat heescht datt se eng eenzeg Aart vu Basis Léiermodell / Algorithmus benotzen. Am Géigesaz, benotze heterogen Ensemblen verschidde Léieralgorithmen, diversifizéieren a variéieren d'Schüler fir sécherzestellen datt d'Genauegkeet sou héich wéi méiglech ass.

Beispiller vun Ensemble Learning Algorithmen

Visualiséierung vun Ensembel Boost. Foto: Sirakorn iwwer Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Beispiller vu sequentiellen Ensembelmethoden enthalen AdaBoost, XGBoost, an Gradient Bam Boost. Dëst sinn all Boost Modeller. Fir dës Boost Modeller ass d'Zil déi schwaach, ënnerperforméierend Léierpersonal a méi mächteg Léierpersonal ze konvertéieren. Modeller wéi AdaBoost an XGBoost starten mat ville schwaache Schüler, déi just e bësse besser Leeschtunge wéi zoufälleg roden. Wéi d'Ausbildung weider geet, ginn d'Gewichte op d'Daten ugewannt an ugepasst. Fäll, déi falsch vun de Schüler a fréiere Trainingsronnen klasséiert goufen, gi méi Gewiicht. Nodeems dëse Prozess fir déi gewënscht Unzuel vun Trainingsronnen widderholl ass, ginn d'Prognosen duerch entweder eng gewiicht Zomm (fir Regressiounsaufgaben) an e gewiichtte Vote (fir Klassifikatiounsaufgaben) zesummegeschloss.

De Bagging Léierprozess. Foto: SeattleDataGuy iwwer Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

E Beispill vun engem Parallel Ensembel Modell ass a Zoufälleg Bësch classifier, an Zoufall Bëscher ass och e Beispill vun engem bagging Technik. De Begrëff "bagging" kënnt aus "Bootstrap Aggregatioun". Echantillon ginn aus dem Gesamtdataset geholl mat enger Samplingtechnik bekannt als "Bootstrap Sampling", déi vun de Basisstudente benotzt gi fir Prognosen ze maachen. Fir Klassifikatiounsaufgaben ginn d'Outpute vun de Basismodeller aggregéiert mat Hëllef vun Ofstëmmung, wärend se duerchschnëttlech zesumme fir Regressiounsaufgaben gemoolt ginn. Random Forests benotzt individuell Entscheedungsbeem als hir Basisstudenten, an all Bam am Ensembel gëtt mat enger anerer Probe aus dem Dataset gebaut. Eng zoufälleg Ënnerdeelung vu Funktiounen gëtt och benotzt fir de Bam ze generéieren. Féiert zu héich randomiséierter individuellen Entscheedungsbeem, déi all kombinéiert sinn fir zouverlässeg Prognosen ze bidden.

Visualiséierung vun Ensembel Stacking. Foto: Supun Setunga iwwer Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Am Sënn vun Stacking Ensembel Techniken, Multiple Regressioun oder Klassifikatiounsmodeller ginn duerch e méi héije Niveau, Meta-Modell kombinéiert. Den ënneschten Niveau, Basismodeller trainéieren andeems se de ganzen Dataset gefüttert ginn. D'Ausgänge vun de Basismodeller ginn dann als Feature benotzt fir de Meta-Modell ze trainéieren. Stacking Ensembelmodeller sinn dacks heterogen an der Natur.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.