Stummel Was ist Ensemble-Lernen? - Unite.AI
Vernetzen Sie sich mit uns

AI 101

Was ist Ensemble-Lernen?

mm
Aktualisiert on

Eine der leistungsstärksten Techniken des maschinellen Lernens ist das Ensemble-Lernen. Sets lernen ist die Verwendung mehrerer Modelle für maschinelles Lernen, um die Zuverlässigkeit und Genauigkeit von Vorhersagen zu verbessern. Doch wie führt der Einsatz mehrerer maschineller Lernmodelle zu genaueren Vorhersagen? Welche Techniken werden zur Erstellung von Ensemble-Lernmodellen verwendet? Wir werden die Antwort auf diese Fragen untersuchen und einen Blick auf die Gründe für die Verwendung von Ensemble-Modellen und die wichtigsten Methoden zur Erstellung von Ensemble-Modellen werfen.

Was ist Ensemble-Lernen?

Vereinfacht ausgedrückt ist Ensemble-Lernen der Prozess, bei dem mehrere maschinelle Lernmodelle trainiert und ihre Ergebnisse miteinander kombiniert werden. Die verschiedenen Modelle werden als Grundlage für die Erstellung eines optimalen Vorhersagemodells verwendet. Die Kombination einer Vielzahl einzelner Modelle für maschinelles Lernen kann die Stabilität des Gesamtmodells verbessern und zu genaueren Vorhersagen führen. Ensemble-Lernmodelle sind häufig zuverlässiger als einzelne Modelle und belegen daher in vielen Wettbewerben für maschinelles Lernen häufig den ersten Platz.

Es gibt verschiedene Techniken, mit denen ein Ingenieur ein Ensemble-Lernmodell erstellen kann. Zu den einfachen Techniken des Ensemble-Lernens gehören Dinge wie die Mittelung der Ergebnisse verschiedener Modelle, während es auch komplexere Methoden und Algorithmen gibt, die speziell dafür entwickelt wurden, die Vorhersagen vieler Basislerner/-modelle miteinander zu kombinieren.

Warum Ensemble-Trainingsmethoden verwenden?

Modelle für maschinelles Lernen können sich aus verschiedenen Gründen voneinander unterscheiden. Verschiedene Modelle des maschinellen Lernens können mit unterschiedlichen Stichproben der Bevölkerungsdaten arbeiten, es können unterschiedliche Modellierungstechniken verwendet werden und es kann eine andere Hypothese verwendet werden.

Stellen Sie sich vor, Sie spielen mit einer großen Gruppe von Menschen ein Quizspiel. Wenn Sie alleine in einem Team sind, gibt es zwangsläufig einige Themen, über die Sie sich auskennen, und viele Themen, über die Sie keine Ahnung haben. Gehen Sie nun davon aus, dass Sie in einem Team mit anderen Leuten spielen. Genau wie Sie verfügen sie über gewisse Kenntnisse zu ihren eigenen Fachgebieten und über keine Kenntnisse zu anderen Themen. Doch wenn Ihr Wissen kombiniert wird, haben Sie genauere Schätzungen für mehr Bereiche und die Zahl der Themen, zu denen Ihr Team kein Wissen hat, schrumpft. Dies ist das gleiche Prinzip, das dem Ensemble-Lernen zugrunde liegt und die Vorhersagen verschiedener Teammitglieder (einzelner Modelle) kombiniert, um die Genauigkeit zu verbessern und Fehler zu minimieren.

Statistiker haben es bewiesen Wenn eine Menschenmenge gebeten wird, die richtige Antwort auf eine bestimmte Frage mit einer Reihe möglicher Antworten zu erraten, bilden alle Antworten eine Wahrscheinlichkeitsverteilung. Die Personen, die die richtige Antwort wirklich kennen, werden mit Zuversicht die richtige Antwort auswählen, während die Personen, die die falschen Antworten auswählen, ihre Vermutungen über den Bereich möglicher falscher Antworten verteilen. Um auf das Beispiel eines Quizspiels zurückzukommen: Wenn Sie und Ihre beiden Freunde wissen, dass die richtige Antwort A ist, werden Sie alle drei mit A stimmen, während die drei anderen Personen in Ihrem Team, die die Antwort nicht kennen, wahrscheinlich falsch stimmen Schätzen Sie B, C, D oder E. Das Ergebnis ist, dass A drei Stimmen hat und die anderen Antworten wahrscheinlich nur eine oder maximal zwei Stimmen haben.

Alle Modelle weisen einen gewissen Fehler auf. Die Fehler eines Modells unterscheiden sich von den Fehlern eines anderen Modells, da die Modelle selbst aus den oben beschriebenen Gründen unterschiedlich sind. Wenn alle Fehler untersucht werden, werden sie nicht um die eine oder andere Antwort gruppiert, sondern vielmehr verstreut. Die falschen Vermutungen verteilen sich im Wesentlichen auf alle möglichen falschen Antworten und heben sich gegenseitig auf. In der Zwischenzeit werden die richtigen Vermutungen aus den verschiedenen Modellen um die wahre, richtige Antwort gruppiert. Wenn Ensemble-Trainingsmethoden zum Einsatz kommen, die richtige Antwort kann mit größerer Zuverlässigkeit gefunden werden.

Einfache Ensemble-Trainingsmethoden

Einfache Ensemble-Trainingsmethoden beinhalten normalerweise nur die Anwendung von statistische ZusammenfassungstechnikB. die Bestimmung des Modus, des Mittelwerts oder des gewichteten Durchschnitts einer Reihe von Vorhersagen.

Der Modus bezieht sich auf das am häufigsten vorkommende Element innerhalb einer Zahlenmenge. Um den Modus zu erhalten, geben die einzelnen Lernmodelle ihre Vorhersagen zurück und diese Vorhersagen gelten als Stimmen für die endgültige Vorhersage. Die Bestimmung des Mittelwerts der Vorhersagen erfolgt einfach durch die Berechnung des arithmetischen Mittels der Vorhersagen, gerundet auf die nächste ganze Zahl. Schließlich kann ein gewichteter Durchschnitt berechnet werden, indem den Modellen, die zur Erstellung von Vorhersagen verwendet werden, unterschiedliche Gewichte zugewiesen werden, wobei die Gewichte die wahrgenommene Bedeutung dieses Modells darstellen. Die numerische Darstellung der Klassenvorhersage wird mit einer Gewichtung von 0 bis 1.0 multipliziert, die einzelnen gewichteten Vorhersagen werden dann summiert und das Ergebnis auf die nächste ganze Zahl gerundet.

Fortgeschrittene Ensemble-Trainingsmethoden

Es gibt drei primäre fortgeschrittene Ensemble-Trainingstechniken, von denen jede für die Bewältigung einer bestimmten Art von maschinellem Lernproblem konzipiert ist. „Absacktechniken“. werden verwendet, um die Varianz der Vorhersagen eines Modells zu verringern, wobei sich die Varianz darauf bezieht, um wie viel sich das Ergebnis von Vorhersagen unterscheidet, wenn sie auf derselben Beobachtung basieren. „Boosting“-Techniken werden verwendet, um der Verzerrung von Modellen entgegenzuwirken. Endlich, „stapeln“ wird verwendet, um Vorhersagen im Allgemeinen zu verbessern.

Ensemble-Lernmethoden selbst können im Allgemeinen in eine von zwei verschiedenen Gruppen unterteilt werden: sequentielle Methoden und parallele Ensemble-Methoden.

Sequentielle Ensemble-Methoden erhalten den Namen „sequentiell“, weil die Basislerner/Modelle sequentiell generiert werden. Bei sequentiellen Methoden besteht die wesentliche Idee darin, dass die Abhängigkeit zwischen den Basislernern ausgenutzt wird, um genauere Vorhersagen zu erhalten. Bei falsch beschrifteten Beispielen wird die Gewichtung angepasst, während bei ordnungsgemäß beschrifteten Beispielen die gleiche Gewichtung beibehalten wird. Jedes Mal, wenn ein neuer Lernender generiert wird, ändern sich die Gewichte und die Genauigkeit verbessert sich (hoffentlich).

Im Gegensatz zu sequentiellen Ensemble-Modellen generieren parallele Ensemble-Methoden die Basislerner parallel. Bei der Durchführung des parallelen Ensemble-Lernens besteht die Idee darin, die Unabhängigkeit der Basislerner auszunutzen, da die allgemeine Fehlerquote durch die Mittelung der Vorhersagen der einzelnen Lernenden reduziert werden kann.

Ensemble-Trainingsmethoden können entweder homogener oder heterogener Natur sein. Die meisten Ensemble-Lernmethoden sind homogen, das heißt, sie verwenden einen einzigen Typ von Basis-Lernmodell/-Algorithmus. Im Gegensatz dazu nutzen heterogene Ensembles unterschiedliche Lernalgorithmen, um die Lernenden zu diversifizieren und zu variieren, um eine möglichst hohe Genauigkeit zu gewährleisten.

Beispiele für Ensemble-Lernalgorithmen

Visualisierung des Ensemble-Boostings. Foto: Sirakorn über Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Beispiele für sequentielle Ensemble-Methoden sind: AdaBoost, XGBoost und Gradientenbaum-Boosting. Dies sind alles Boosting-Modelle. Bei diesen Boosting-Modellen besteht das Ziel darin, die schwachen, leistungsschwachen Lernenden in leistungsfähigere Lernende umzuwandeln. Modelle wie AdaBoost und XGBoost beginnen mit vielen schwachen Lernenden, die nur geringfügig besser abschneiden als zufällige Schätzungen. Im weiteren Verlauf des Trainings werden Gewichtungen auf die Daten angewendet und angepasst. Fälle, die von den Lernenden in früheren Trainingsrunden falsch klassifiziert wurden, erhalten ein höheres Gewicht. Nachdem dieser Vorgang für die gewünschte Anzahl von Trainingsrunden wiederholt wurde, werden die Vorhersagen entweder durch eine gewichtete Summe (für Regressionsaufgaben) und eine gewichtete Abstimmung (für Klassifizierungsaufgaben) zusammengefügt.

Der Lernprozess des Einsackens. Foto: SeattleDataGuy über Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Ein Beispiel für ein paralleles Ensemblemodell ist a Zufälliger Wald Klassifikator und Random Forests sind ebenfalls ein Beispiel für eine Absacktechnik. Der Begriff „Bagging“ kommt von „Bootstrap Aggregation“. Mithilfe einer als „Bootstrap-Sampling“ bekannten Stichprobentechnik werden Stichproben aus dem Gesamtdatensatz entnommen, die von den Basislernern verwendet werden, um Vorhersagen zu treffen. Bei Klassifizierungsaufgaben werden die Ausgaben der Basismodelle mithilfe von Abstimmungen aggregiert, während sie bei Regressionsaufgaben gemeinsam gemittelt werden. Random Forests verwendet einzelne Entscheidungsbäume als Basislerner, und jeder Baum im Ensemble wird anhand einer anderen Stichprobe aus dem Datensatz erstellt. Zur Generierung des Baums wird auch eine zufällige Teilmenge von Merkmalen verwendet. Dies führt zu hochgradig randomisierten individuellen Entscheidungsbäumen, die alle miteinander kombiniert werden, um zuverlässige Vorhersagen zu liefern.

Visualisierung des Ensemble-Stackings. Foto: Supun Setunga über Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Im Hinblick auf Stacking-Ensemble-Techniken werden mehrere Regressions- oder Klassifizierungsmodelle durch ein übergeordnetes Metamodell miteinander kombiniert. Die Basismodelle der unteren Ebene werden trainiert, indem sie mit dem gesamten Datensatz gefüttert werden. Die Ausgaben der Basismodelle werden dann als Features zum Trainieren des Metamodells verwendet. Stacking-Ensemble-Modelle sind häufig heterogener Natur.

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.