Stumm Wat ass en Entscheedungsbam? - Unite.AI
Connect mat eis

AI 101

Wat ass en Entscheedungsbam?

mm
aktualiséiert on

Wat ass en Entscheedungsbam?

A Entscheedungsbam ass en nëtzlechen Algorithmus fir Maschinnléiere fir béid Regressiouns- a Klassifikatiounsaufgaben. Den Numm "Decisiounsbam" kënnt aus der Tatsaach datt den Algorithmus den Dataset weider a méi kleng Portiounen opdeelt bis d'Donnéeën an eenzel Instanzen opgedeelt goufen, déi dann klasséiert ginn. Wann Dir d'Resultater vum Algorithmus visualiséiert, da géif d'Art a Weis wéi d'Kategorien opgedeelt sinn e Bam a vill Blieder gleewen.

Dat ass eng séier Definitioun vun engem Entscheedungsbam, awer loosst eis en déif Tauche maachen an wéi Entscheedungsbeem funktionnéieren. E bessert Verständnis ze hunn wéi Entscheedungsbeem funktionnéieren, souwéi hir Benotzungsfäll, wäert Iech hëllefen ze wëssen wéini Dir se während Äre Maschinnléiereprojeten notzen.

Format vun engem Decisioun Tree

Eng Decisioun Bam ass vill wéi e Flowchart. Fir e Flowchart ze benotzen, fänkt Dir um Startpunkt, oder Root, vun der Diagramm un an dann baséiert op wéi Dir d'Filterkriterien vun deem Startknuet beäntwert, gitt Dir op ee vun den nächste méigleche Wirbelen. Dëse Prozess gëtt widderholl bis en Enn erreecht gëtt.

Entscheedungsbeem funktionnéieren am Wesentlechen déiselwecht Manéier, mat all internen Node am Bam eng Zort Test- / Filterkriterien. D'Knueten op der Äussewelt, d'Ennpunkte vum Bam, sinn d'Etiketten fir de betreffend Datepunkt a si ginn "Blieder" genannt. D'Branchen, déi vun den internen Wirbelen op den nächsten Node féieren, sinn Features oder Konjunktioune vu Features. D'Regele benotzt fir d'Datepunkte ze klassifizéieren sinn d'Weeër déi vun der Wuerzel op d'Blieder lafen.

Algorithmen fir Decisioun Beem

Entscheedungsbeem funktionnéieren op enger algorithmescher Approche déi d'Datebank an eenzel Datenpunkten opgedeelt op Basis vu verschiddene Critèren. Dës Splitter gi mat verschiddene Variabelen gemaach, oder déi verschidde Features vum Dataset. Zum Beispill, wann d'Zil ass ze bestëmmen ob en Hond oder Kaz duerch d'Input Feature beschriwwe gëtt oder net, Variabelen op deenen d'Donnéeë gespléckt sinn, kéinte Saache sinn wéi "Klauen" a "Bell".

Also wéi eng Algorithmen gi benotzt fir d'Donnéeën tatsächlech a Branchen a Blieder opzedeelen? Et gi verschidde Methoden déi kënne benotzt ginn fir e Bam opzedeelen, awer déi heefegst Method fir opzedeelen ass méiglecherweis eng Technik genannt "rekursive binäre Split". Wann Dir dës Spaltmethod ausféiert, fänkt de Prozess un der Wuerzel un an d'Zuel vun de Featuren am Dataset representéiert déi méiglech Unzuel vu méigleche Spaltungen. Eng Funktioun gëtt benotzt fir ze bestëmmen wéi vill Genauegkeet all méiglech Spalt wäert kaschten, an d'Spaltung gëtt gemaach mat de Critèren déi déi mannst Genauegkeet opferen. Dëse Prozess gëtt rekursiv duerchgefouert an Ënnergruppen ginn mat der selwechter allgemenger Strategie geformt.

Fir dass bestëmmen d'Käschte vun der Split, gëtt eng Käschtefunktioun benotzt. Eng aner Käschtefunktioun gëtt fir Regressiounsaufgaben a Klassifikatiounsaufgaben benotzt. D'Zil vu béide Käschtefunktiounen ass ze bestëmmen wéi eng Filialen déi ähnlechst Äntwertwäerter hunn, oder déi homogenste Filialen. Bedenkt datt Dir wëllt Testdaten vun enger bestëmmter Klass fir gewësse Weeër ze verfollegen an dëst mécht intuitiv Sënn.

Am Sënn vun der Regressiounskäschtefunktioun fir rekursiv binär Split, ass den Algorithmus deen benotzt gëtt fir d'Käschte ze berechnen wéi follegt:

sum(y - Prognose)^2

D'Prognose fir eng bestëmmte Grupp vun Datepunkte ass d'Moyenne vun den Äntwerte vun den Trainingsdaten fir dës Grupp. All Datenpunkte ginn duerch d'Käschtefunktioun ausgeführt fir d'Käschte fir all méiglech Spaltungen ze bestëmmen an d'Split mat de niddregsten Käschten gëtt ausgewielt.

Wat d'Käschtefunktioun fir d'Klassifikatioun ugeet, ass d'Funktioun wéi follegt:

G = sum(pk * (1 – pk))

Dëst ass de Gini Score, an et ass eng Miessung vun der Effizienz vun enger Spaltung, baséiert op wéivill Fäll vu verschiddene Klassen an de Gruppen sinn, déi aus der Spaltung entstinn. An anere Wierder, et quantifizéiert wéi gemëscht d'Gruppen no der Spaltung sinn. Eng optimal Spaltung ass wann all d'Gruppen, déi aus der Split resultéieren, nëmmen aus Inputen aus enger Klass besteet. Wann eng optimal Spaltung erstallt gouf, ass de "pk" Wäert entweder 0 oder 1 a G wäert gläich Null sinn. Dir kënnt vläicht roden datt de schlëmmste Fall Split een ass wou et eng 50-50 Representatioun vun de Klassen an der Split ass, am Fall vun der binärer Klassifikatioun. An dësem Fall wier de "pk" Wäert 0.5 a G wier och 0.5.

De Spaltprozess gëtt ofgeschloss wann all d'Datepunkte a Blieder ëmgewandelt a klasséiert goufen. Wéi och ëmmer, Dir wëllt de Wuesstum vum Bam fréi stoppen. Grouss komplex Beem sinn ufälleg fir ze iwwerzeegen, awer verschidde verschidde Methode kënne benotzt ginn fir dëst ze bekämpfen. Eng Method fir d'Overfitting ze reduzéieren ass eng Mindestzuel vun Datenpunkten ze spezifizéieren déi benotzt gi fir e Blat ze kreéieren. Eng aner Method fir d'Iwwerpassen ze kontrolléieren ass de Bam op eng gewësse maximal Déift ze beschränken, wat kontrolléiert wéi laang e Wee vun der Wuerzel op e Blat ka strecken.

En anere Prozess involvéiert an der Schafung vun Entscheedungsbeem gëtt ofgeschnidden. Pruning kann hëllefe fir d'Performance vun engem Entscheedungsbam ze erhéijen andeems d'Branchen ewechgeholl ginn déi Features enthalen déi wéineg prévisiv Kraaft / wéineg Wichtegkeet fir de Modell hunn. Op dës Manéier gëtt d'Komplexitéit vum Bam reduzéiert, et gëtt manner Wahrscheinlechkeet ze iwwerzeegen, an d'predictive Utility vum Modell gëtt erhéicht.

Beim Ausschneiden kann de Prozess entweder uewen um Bam oder um Enn vum Bam ufänken. Wéi och ëmmer, déi einfachst Method fir ze schneiden ass mat de Blieder unzefänken an ze probéieren den Node ze falen, deen déi allgemeng Klass an deem Blat enthält. Wann d'Genauegkeet vum Modell net verschlechtert wann dëst gemaach gëtt, da gëtt d'Ännerung bewahrt. Et ginn aner Techniken, déi benotzt gi fir Pruning auszeféieren, awer d'Method hei uewen beschriwwen - reduzéiert Feeler Pruning - ass wahrscheinlech déi heefegst Method fir Entscheedungsbaum ze schneiden.

Considératiounen Fir Benotzung vun Decisioun Beem

Entscheedungsbeamten sinn oft nëtzlech wann d'Klassifikatioun muss duerchgefouert ginn, awer d'Berechnungszäit ass eng grouss Aschränkung. Entscheedungsbeem kënnen et kloer maachen wéi eng Features an de gewielten Datesätz déi meeschte prévisiv Kraaft hunn. Ausserdeem, am Géigesaz zu ville Maschinnléiere Algorithmen, wou d'Regele benotzt fir d'Daten ze klassifizéieren schwéier ze interpretéieren kënnen, kënnen Entscheedungsbeem interpretéierbar Reegele maachen. Entscheedungsbeem sinn och fäeg souwuel kategoresch a kontinuéierlech Variabelen ze benotzen, wat heescht datt manner Virveraarbechtung gebraucht gëtt, am Verglach mat Algorithmen déi nëmmen eng vun dësen Variabelen Typen handhaben.

Entscheedungsbeem tendéieren net ganz gutt wann se benotzt gi fir d'Wäerter vu kontinuéierlechen Attributer ze bestëmmen. Eng aner Begrenzung vun Entscheedungsbeem ass datt wann Dir Klassifikatioun maacht, wann et wéineg Trainingsbeispiller sinn awer vill Klassen, den Entscheedungsbam tendéiert ongenau ze sinn.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.