Stumm Wat ass Gradient Boosting? - Unite.AI
Connect mat eis

AI 101

Wat ass Gradient Boosting?

mm
aktualiséiert on

Eng gemeinsam Aart vu Maschinnléiermodell deen et fäerdeg bruecht huet extrem nëtzlech an Datenwëssenschaftscompetitiounen ze sinn ass e Gradient Boost Modell. Gradient Boost ass am Fong de Prozess fir schwaach Léiermodeller a staark Léiermodeller ëmzewandelen. Wéi och ëmmer, wéi gëtt dat genee realiséiert? Loosst eis e méi no kucken Gradient Boost Algorithmen a besser verstoen wéi e Gradient Boost Modell konvertéiert schwaach Schüler a staark Schüler.

Gradient Boosting definéieren

Dësen Artikel zielt Iech eng gutt Intuitioun ze ginn fir wat Gradient Boost ass, ouni vill Decompte vun der Mathematik déi d'Algorithmen ënnersträichen. Wann Dir eng Valorisatioun hutt fir wéi Gradient Boosting op engem héijen Niveau funktionnéiert, sidd Dir encouragéiert méi déif ze goen an d'Mathematik ze entdecken déi et méiglech mécht.

Loosst eis ufänken mat ze definéieren wat et heescht e Schüler ze "boosten". Schwaach Schüler ginn a staark Schüler ëmgewandelt andeems d'Eegeschafte vum Léiermodell ugepasst ginn. Genau wat Léieralgorithmus gëtt gestäerkt?

Boost Modeller funktionnéieren andeems en en anere gemeinsame Maschinnléiermodell erweidert, engem Decisioun Bam.

A Entscheedungsbam Modellfunktiounen andeems en Dataset a méi kleng a méi kleng Portiounen opgedeelt gëtt, a wann d'Subsets net méi opgedeelt kënne ginn, ass d'Resultat e Bam mat Wirbelen a Blieder. Noden an engem Entscheedungsbam sinn wou Entscheedungen iwwer Datepunkte mat verschiddene Filterkriterien gemaach ginn. D'Blieder an engem Entscheedungsbam sinn d'Datepunkte, déi klasséiert goufen. Entscheedungsbaum Algorithmen kënne souwuel numeresch wéi och kategoresch Daten handhaben, a Spaltungen am Bam baséieren op spezifesch Variablen / Features.

Illustratioun vun der Manéier Boost Modeller trainéiert ginn.
Foto: SeattleDataBuy iwwer Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

Eng Aart vu Boost Algorithmus ass den AdaBoost Algorithmus. AdaBoost Algorithmen fänken un mat engem Entscheedungsbaummodell ze trainéieren an all Observatioun e gläiche Gewiicht ze ginn. Nodeems den éischte Bam op Genauegkeet bewäert ass, ginn d'Gewiichter fir déi verschidden Observatioune ugepasst. Beobachtungen déi einfach ze klassifizéieren hunn hir Gewiichter erofgesat, während Observatioune déi schwéier ze klassifizéieren hunn hir Gewiichter eropgaang. En zweete Bam gëtt mat dësen ugepasste Gewiichter erstallt, mam Zil datt d'Prognosen vum zweete Bam méi genee sinn wéi d'Prognosen vum éischte Bam.

De Modell besteet elo aus de Prognosen fir den ursprénglechen Bam an den neie Bam (oder Bam 1 + Bam 2). D'Klassifikatiounsgenauegkeet gëtt nach eng Kéier op Basis vum neie Modell bewäert. En drëtte Bam gëtt op Basis vum berechente Feeler fir de Modell erstallt, an d'Gewiichter ginn nach eng Kéier ugepasst. Dëse Prozess geet weider fir eng bestëmmten Unzuel vun Iteratiounen, an de leschte Modell ass en Ensembelmodell deen déi gewiicht Zomm vun de Prognosen benotzt, déi vun all de virdru gebaute Beem gemaach goufen.

De Prozess uewen beschriwwen benotzt Decision Trees an d'Basis Prädiktoren / Modeller, awer eng Boost Approche kann mat enger breet Palette vu Modeller duerchgefouert ginn wéi déi vill Standard Klassifizéierer a Regressor Modeller. D'Schlësselkonzepter fir ze verstoen sinn datt spéider Prediktoren aus de Feeler vun de fréiere léieren an datt d'Prognose sequentiell erstallt ginn.

De primäre Virdeel fir Algorithmen ze boosten ass datt se manner Zäit huelen fir déi aktuell Prognosen ze fannen am Verglach mat anere Maschinnléiermodeller. Virsiichteg muss benotzt ginn wann Dir Boost Algorithmen benotzt, awer, well se ufälleg sinn fir ze iwwerpassen.

Gradient Boosting

Mir kucken elo op ee vun den allgemengste Boost Algorithmen. Gradient Boosting Modeller (GBM) si bekannt fir hir héich Genauegkeet, a si vergréisseren déi allgemeng Prinzipien déi am AdaBoost benotzt ginn.

De primären Ënnerscheed tëscht engem Gradient Boosting Model an AdaBoost ass datt GBMs eng aner Method benotze fir ze berechnen wéi eng Léierpersonal Datenpunkte falsch identifizéieren. AdaBoost berechent wou e Modell ënnerperforméiert gëtt andeems d'Datepunkte ënnersicht déi schwéier gewiicht sinn. Mëttlerweil benotzen GBMs Gradienten fir d'Genauegkeet vun de Schüler ze bestëmmen, eng Verloschtfunktioun op e Modell anzesetzen. Verloschtfunktioune sinn e Wee fir d'Genauegkeet vun der Passung vun engem Modell op den Dataset ze moossen, e Feeler ze berechnen an de Modell ze optimiséieren fir dëse Feeler ze reduzéieren. GBMs loossen de Benotzer eng spezifizéiert Verloschtfunktioun optimiséieren op Basis vun hirem gewënschten Zil.

Déi meescht üblech Verloschtfunktioun huelen - Mean Squared Error (MSE) - als Beispill, gradient Ofstamung gëtt benotzt fir Prognosen ze aktualiséieren baséiert op engem virdefinéierte Léierrate, mam Zil d'Wäerter ze fannen wou de Verloscht minimal ass.

Fir et méi kloer ze maachen:

Neie Modell Prognosen = Output Variablen - al imperfekt Prognosen.

An engem méi statistesche Sënn zielen d'GBMs fir relevant Musteren an de Reschter vun engem Modell ze fannen, de Modell unzepassen fir d'Muster ze passen an d'Reschter esou no bei Null wéi méiglech ze bréngen. Wann Dir eng Regressioun op d'Prognosen vum Modell géif ausféieren, géifen d'Reschter ëm 0 verdeelt ginn (perfekt fit), an d'GBMs fannen Mustere bannent de Reschter an aktualiséieren de Modell ronderëm dës Mustere.

An anere Wierder, d'Prognosen ginn aktualiséiert sou datt d'Zomm vun alle Reschter esou no bei 0 wéi méiglech ass, dat heescht datt déi virausgesot Wäerter ganz no bei den aktuellen Wäerter sinn.

Bedenkt datt eng grouss Varietéit vun anere Verloscht Funktiounen (wéi logarithmic Verloscht) vun engem GBM benotzt ginn. MSE gouf uewen ausgewielt fir den Zweck vun der Einfachheet.

Variatiounen op Gradient Boosting Modeller

Gradient Boosting Modeller sinn gourmandseg Algorithmen déi ufälleg sinn fir op engem Dataset ze iwwerpassen. Dëst kann mat geschützt ginn verschidde verschidde Methoden dat kann d'Leeschtung vun engem GBM verbesseren.

GBMs kënne mat véier verschiddene Methoden geregelt ginn: Schrumpfung, Bambeschränkungen, Stochastic Gradient Boosting, a Penaliséierter Léieren.

Schrëft

Wéi virdru scho gesot, an GBMs ginn Prognosen op eng sequenziell Manéier zesummegefaasst. Am "Shrinkage" ginn d'Ergänzunge vun all Bam op d'Gesamtzomm ugepasst. Gewiichter ginn ugewannt déi de Léierrate vum Algorithmus verlangsamen, wat erfuerdert datt méi Beem zum Modell bäigefüügt ginn, wat typesch d'Robustitéit an d'Leeschtung vum Modell verbessert. Den Ofhandlung ass datt de Modell méi laang dauert fir ze trainéieren.

Bam Aschränkungen

D'Begrenzung vum Bam mat verschiddenen Tweaks wéi méi Tiefe fir de Bam ze addéieren oder d'Zuel vun de Wirbelen oder Blieder am Bam erhéijen kann et méi schwéier maachen fir de Modell ze iwwerzeegen. Eng Aschränkung op d'Mindestzuel vun Observatioune pro Spalt opzesetzen huet en ähnlechen Effekt. Eng Kéier ass den Ofwiesselung datt et de Modell méi laang dauert fir ze trainéieren.

Zoufälleg Sampling

Déi eenzel Schüler kënnen duerch e stochastesche Prozess erstallt ginn, baséiert op zoufälleg ausgewielten Ënnerstampelen vun der Trainingsdates. Dëst huet den Effekt fir d'Korrelatioun tëscht de Beem ze reduzéieren, wat sech géint Iwwerfitting schützt. Den Dataset kann substampéiert ginn ier Dir d'Beem erstellt oder ier Dir eng Spaltung am Bam berücksichtegt.

Bestrooft Léieren

Nieft dem Modell ze limitéieren duerch d'Struktur vum Bam ze limitéieren, ass et méiglech e Regressiounsbaum ze benotzen. D'Regressiounsbeem hunn numeresch Wäerter un all de Blieder verbonnen, an dës funktionnéieren als Gewiichter a kënne mat gemeinsame Reguléierungsfunktiounen wéi L1 a L2 Reguléierung ugepasst ginn.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.