Connect with us

Künstliche Intelligenz

LightAutoML: AutoML-Lösung für ein großes Finanzdienstleistungs-Ökosystem

mm

Obwohl AutoML vor einigen Jahren an Popularität gewann, reichen die frühen Arbeiten an AutoML bis in die frühen 90er Jahre zurück, als Wissenschaftler die ersten Aufsätze über Hyperparameter-Optimierung veröffentlichten. Es war 2014, als die ICML das erste AutoML-Workshop organisierte, dass AutoML die Aufmerksamkeit von ML-Entwicklern auf sich zog. Einer der Hauptfokus von AutoML über die Jahre hinweg ist das Hyperparameter-Suchproblem, bei dem das Modell eine Reihe von Optimierungsmethoden implementiert, um die besten Hyperparameter in einem großen Hyperparameter-Raum für ein bestimmtes Machine-Learning-Modell zu bestimmen. Eine weitere Methode, die häufig von AutoML-Modellen implementiert wird, ist die Schätzung der Wahrscheinlichkeit, dass ein bestimmter Hyperparameter der optimale Hyperparameter für ein bestimmtes Machine-Learning-Modell ist. Das Modell erreicht dies, indem es bayessche Methoden implementiert, die traditionell historische Daten von zuvor geschätzten Modellen und anderen Datensätzen verwenden. Neben der Hyperparameter-Optimierung versuchen andere Methoden, die besten Modelle aus einem Raum von Modellalternativen auszuwählen.

In diesem Artikel werden wir LightAutoML behandeln, ein AutoML-System, das hauptsächlich für ein europäisches Unternehmen im Finanzsektor und sein Ökosystem entwickelt wurde. Das LightAutoML-Framework wird in verschiedenen Anwendungen eingesetzt und die Ergebnisse zeigen eine überlegene Leistung, vergleichbar mit der eines Datenwissenschaftlers, sogar bei der Erstellung von hochwertigen Machine-Learning-Modellen. Das LightAutoML-Framework versucht, die folgenden Beiträge zu leisten. Zunächst wurde das LightAutoML-Framework hauptsächlich für das Ökosystem einer großen europäischen Finanz- und Bankinstitution entwickelt. Aufgrund seines Frameworks und seiner Architektur kann das LightAutoML-Framework state-of-the-art-AutoML-Frameworks in verschiedenen offenen Benchmarks sowie in Ökosystemanwendungen überbieten. Die Leistung des LightAutoML-Frameworks wird auch mit Modellen verglichen, die von Datenwissenschaftlern manuell abgestimmt werden, und die Ergebnisse zeigen eine stärkere Leistung des LightAutoML-Frameworks.

Dieser Artikel zielt darauf ab, das LightAutoML-Framework in der Tiefe zu behandeln, und wir erkunden den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit state-of-the-art-Frameworks. Also los geht’s.

LightAutoML: Ein AutoML-Framework für Finanzdienstleistungen

Obwohl Forscher erstmals in den 90er Jahren mit AutoML begannen, hat AutoML in den letzten Jahren einen großen Teil der Aufmerksamkeit auf sich gezogen, mit einigen der prominenten industriellen Lösungen, die automatisch erstellte Machine-Learning-Modelle implementieren, wie Amazon’s AutoGluon, DarwinAI, H20.ai, IBM Watson AI, Microsoft AzureML und viele mehr. Die meisten dieser Frameworks implementieren eine allgemeine AutoML-Lösung, die ML-basierte Modelle automatisch über verschiedene Anwendungsklassen wie Finanzdienstleistungen, Gesundheitswesen, Bildung und mehr entwickelt. Die wichtigste Annahme hinter diesem horizontalen generischen Ansatz ist, dass der Prozess der Entwicklung automatischer Modelle über alle Anwendungen identisch bleibt. Das LightAutoML-Framework implementiert jedoch einen vertikalen Ansatz, um eine AutoML-Lösung zu entwickeln, die nicht generisch ist, sondern rather den Bedürfnissen einzelner Anwendungen gerecht wird, in diesem Fall einer großen Finanzinstitution. Das LightAutoML-Framework ist eine vertikale AutoML-Lösung, die sich auf die Anforderungen des komplexen Ökosystems und seiner Merkmale konzentriert. Zunächst bietet das LightAutoML-Framework eine schnelle und nahezu optimale Hyperparameter-Suche. Obwohl das Modell diese Hyperparameter nicht direkt optimiert, liefert es dennoch zufriedenstellende Ergebnisse. Darüber hinaus hält das Modell die Balance zwischen Geschwindigkeit und Hyperparameter-Optimierung dynamisch, um sicherzustellen, dass das Modell auf kleinen Problemen optimal und auf größeren Problemen schnell genug ist. Zweitens beschränkt das LightAutoML-Framework den Bereich der Machine-Learning-Modelle absichtlich auf nur zwei Arten: lineare Modelle und GBMs oder Gradient-Boosted-Entscheidungsbäume, anstatt große Ensembles von verschiedenen Algorithmen zu implementieren. Der Hauptgrund für die Beschränkung des Bereichs der Machine-Learning-Modelle ist, die Ausführungszeit des LightAutoML-Frameworks zu beschleunigen, ohne die Leistung negativ für die gegebene Art von Problem und Daten zu beeinträchtigen. Drittens präsentiert das LightAutoML-Framework eine einzigartige Methode zur Auswahl von Vorverarbeitungsschemata für verschiedene Merkmale, die in den Modellen auf der Grundlage bestimmter Auswahlregeln und Meta-Statistiken verwendet werden. Das LightAutoML-Framework wird auf einer breiten Palette von offenen Datenquellen über verschiedene Anwendungen hinweg evaluiert.

LightAutoML: Methodik und Architektur

Das LightAutoML-Framework besteht aus Modulen, die als Presets bekannt sind und die für die Entwicklung von End-to-End-Modellen für typische Machine-Learning-Aufgaben verantwortlich sind. Derzeit unterstützt das LightAutoML-Framework Preset-Module. Zunächst konzentriert sich das TabularAutoML-Preset auf die Lösung klassischer Machine-Learning-Probleme, die auf tabellarischen Datensätzen definiert sind. Zweitens implementiert das White-Box-Preset einfache interpretierbare Algorithmen wie logistische Regression anstelle von WoE- oder Weight-of-Evidence-Codierung und diskreten Merkmalen, um binäre Klassifizierungsaufgaben auf tabellarischen Daten zu lösen. Die Implementierung einfacher interpretierbarer Algorithmen ist eine gängige Praxis, um die Wahrscheinlichkeit einer Anwendung aufgrund der Interpretierbarkeitsbeschränkungen durch verschiedene Faktoren zu modellieren. Drittens kann das NLP-Preset tabellarische Daten mit NLP- oder Natural Language Processing-Tools kombinieren, einschließlich vorgefertigter tiefere Lernalgorithmen und spezifischer Merkmalsextraktoren. Schließlich arbeitet das CV-Preset mit Bilddaten mit Hilfe einiger grundlegender Tools. Es ist wichtig zu beachten, dass das LightAutoML-Modell alle vier Presets unterstützt, das Framework jedoch nur das TabularAutoML im Produktions-System verwendet.

Die typische Pipeline des LightAutoML-Frameworks ist in dem folgenden Bild enthalten.

Jede Pipeline enthält drei Komponenten. Zunächst ist der Reader ein Objekt, das den Aufgabentyp und die Rohdaten als Eingabe erhält, wichtige Metadatenberechnungen durchführt, die anfänglichen Daten reinigt und die Datenmanipulationen bestimmt, die vor der Anpassung verschiedener Modelle durchgeführt werden müssen. Als Nächstes enthalten die LightAutoML-Intern-Datensätze CV-Iteratoren und Metadaten, die Validierungsschemata für die Datensätze implementieren. Die dritte Komponente sind die mehrfachen Machine-Learning-Pipelines, die gestapelt und/oder gemischt werden, um eine einzelne Vorhersage zu erhalten. Eine Machine-Learning-Pipeline innerhalb der Architektur des LightAutoML-Frameworks ist eines von mehreren Machine-Learning-Modellen, die ein gemeinsames Datenvalidierungs- und Vorverarbeitungsschema teilen. Der Vorverarbeitungsschritt kann bis zu zwei Merkmalsextraktionschritte, einen Merkmalsextraktionschritt oder leer sein, wenn keine Vorverarbeitung erforderlich ist. Die ML-Pipelines können unabhängig auf den gleichen Datensätzen berechnet und dann gemittelt (oder gewichtet gemittelt) werden. Alternativ kann ein Stacking-Ensemble-Schema verwendet werden, um mehrstufige Ensemble-Architekturen zu erstellen.

LightAutoML Tabular Preset

Innerhalb des LightAutoML-Frameworks ist TabularAutoML die Standard-Pipeline und wird im Modell implementiert, um drei Arten von Aufgaben auf tabellarischen Daten zu lösen: binäre Klassifizierung, Regression und multiklassifizierte Klassifizierung für eine breite Palette von Leistungsmaßen und Verlustfunktionen. Eine Tabelle mit den folgenden vier Spalten: kategorische Merkmale, numerische Merkmale, Zeitstempel und eine einzelne Zielspalte mit Klassenlabels oder kontinuierlichen Werten, wird dem TabularAutoML-Modul als Eingabe zugeführt. Eines der Hauptziele hinter dem Design des LightAutoML-Frameworks war, ein Werkzeug für schnelles Hypothesentesten zu entwickeln, ein Grund, warum das Framework brute-force-Methoden für Pipeline-Optimierung vermeidet und sich nur auf Effizienztechniken und Modelle konzentriert, die auf einer breiten Palette von Datensätzen funktionieren.

Auto-Typing und Daten-Vorverarbeitung

Um verschiedene Arten von Merkmalen auf unterschiedliche Weise zu behandeln, muss das Modell den Typ jedes Merkmals kennen. In der Situation, in der es sich um eine einzelne Aufgabe mit einem kleinen Datensatz handelt, kann der Benutzer jeden Merkmaltyp manuell angeben. Allerdings ist die manuelle Angabe jedes Merkmaltyps in Situationen, die Hunderte von Aufgaben mit Datensätzen enthalten, die Tausende von Merkmalen enthalten, keine praktikable Option. Für das TabularAutoML-Preset muss das LightAutoML-Framework Merkmale in drei Klassen zuordnen: numerisch, Kategorie und Datum. Eine einfache und offensichtliche Lösung besteht darin, die Spaltenarray-Datentypen als tatsächliche Merkmaltypen zu verwenden, d. h. float/int-Spalten auf numerische Merkmale, Zeitstempel oder Zeichenfolgen, die als Zeitstempel parsebar sind, auf Datum und andere auf Kategorie. Allerdings ist diese Zuordnung nicht die beste, da numerische Datentypen in Kategorienspalten häufig vorkommen.

Validierungsschemata

Validierungsschemata sind ein wichtiger Bestandteil von AutoML-Frameworks, da Daten in der Industrie im Laufe der Zeit ändern und dieser Änderungsaspekt die IID- oder unabhängig identisch verteilten Annahmen irrelevant macht, wenn das Modell entwickelt wird. AutoML-Modelle verwenden Validierungsschemata, um ihre Leistung zu schätzen, Hyperparameter zu suchen und Vorhersagen außerhalb des Folds zu generieren. Das TabularAutoML-Pipeline implementiert drei Validierungsschemata:

  • KFold-Cross-Validation: KFold-Cross-Validation ist das Standard-Validierungsschema für die TabularAutoML-Pipeline, einschließlich GroupKFold für Verhaltensmodelle und stratifizierte KFold für Klassifizierungsaufgaben.
  • Holdout-Validierung: Das Holdout-Validierungsschema wird implementiert, wenn die Holdout-Menge angegeben ist.
  • Benutzerdefinierte Validierungsschemata: Benutzerdefinierte Validierungsschemata können von Benutzern je nach ihren individuellen Anforderungen erstellt werden. Benutzerdefinierte Validierungsschemata umfassen Cross-Validation- und Zeitreihen-Split-Schemata.

Merkmalsextraktion

Obwohl die Merkmalsextraktion ein wichtiger Aspekt der Modellentwicklung nach Industriestandards ist, da sie eine Verringerung der Inferenz- und Modellimplementierungskosten ermöglicht, konzentrieren sich die meisten AutoML-Lösungen nicht viel auf dieses Problem. Im Gegensatz dazu implementiert die TabularAutoML-Pipeline drei Merkmalsextraktionsstrategien: Keine Auswahl, Importance-Cut-Off-Auswahl und Importance-basierte Vorwärtsauswahl. Von diesen drei ist die Importance-Cut-Off-Auswahl die Standard-Merkmalsextraktionsstrategie. Darüber hinaus gibt es zwei primäre Methoden, um die Merkmalswichtigkeit zu schätzen: split-basierte Baumwichtigkeit und Permutation der Wichtigkeit des GBM-Modells oder Gradient-Boosted-Entscheidungsbäume. Das primäre Ziel der Importance-Cut-Off-Auswahl ist, Merkmale abzulehnen, die dem Modell nicht hilfreich sind, was es dem Modell ermöglicht, die Anzahl der Merkmale ohne negative Auswirkung auf die Leistung zu verringern, ein Ansatz, der die Modellinferenz und -ausbildung beschleunigen kann.

Das obige Bild vergleicht verschiedene Auswahlschemata auf binären Bankdatensätzen.

Hyperparameter-Tuning

Die TabularAutoML-Pipeline implementiert verschiedene Ansätze, um Hyperparameter auf der Grundlage dessen zu optimieren, was optimiert wird.

  • Frühzeitiges Stoppen der Hyperparameter-Optimierung: Wählt die Anzahl der Iterationen für alle Modelle während der Trainingsphase aus.
  • Experten-System-Hyperparameter-Optimierung: Ist eine einfache Möglichkeit, Hyperparameter für Modelle in zufriedenstellender Weise zu setzen. Es verhindert, dass das endgültige Modell eine starke Abnahme des Scores im Vergleich zu hart abgestimmten Modellen erfährt.
  • Tree-Structures-Parzen-Schätzung oder TPE: für GBM- oder Gradient-Boosted-Entscheidungsbaummodelle. TPE ist eine gemischte Abstimmungsstrategie, die die Standardwahl in der LightAutoML-Pipeline ist. Für jedes GMB-Framework trainiert das LightAutoML-Framework zwei Modelle: Das erste erhält Experten-Hyperparameter, das zweite wird fein abgestimmt, um in den Zeitbudget zu passen.
  • Grid-Suche-Hyperparameter-Optimierung: Wird in der TabularAutoML-Pipeline implementiert, um die Regularisierungsparameter eines linearen Modells zusammen mit frühzeitigem Stoppen und Warmstart fein abzustimmen.

Das Modell optimiert alle Parameter, indem es die Metrikfunktion maximiert, die entweder vom Benutzer definiert oder standardmäßig für die gelöste Aufgabe ist.

LightAutoML: Experiment und Leistung

Um die Leistung zu bewerten, wird das TabularAutoML-Preset innerhalb des LightAutoML-Frameworks mit bereits bestehenden Open-Source-Lösungen über verschiedene Aufgaben hinweg verglichen und bestätigt die überlegene Leistung des LightAutoML-Frameworks. Zunächst wird der Vergleich auf dem OpenML-Benchmark durchgeführt, der auf 35 binären und multiklassifizierten Klassifizierungsaufgaben-Datensätzen evaluiert wird. Die folgende Tabelle fasst den Vergleich des LightAutoML-Frameworks mit bestehenden AutoML-Systemen zusammen.

Wie zu sehen ist, übertrifft das LightAutoML-Framework alle anderen AutoML-Systeme auf 20 Datensätzen innerhalb des Benchmarks. Die folgende Tabelle enthält den detaillierten Vergleich im Datensatzkontext, der darauf hinweist, dass das LightAutoML unterschiedliche Leistungen auf verschiedenen Klassen von Aufgaben liefert. Für binäre Klassifizierungsaufgaben fällt die Leistung des LightAutoML hinterher, während das Framework für Aufgaben mit einer großen Menge an Daten eine überlegene Leistung liefert.

Die folgende Tabelle vergleicht die Leistung des LightAutoML-Frameworks mit AutoML-Systemen auf 15 Bankdatensätzen, die eine Reihe von binären Klassifizierungsaufgaben enthalten. Wie zu sehen ist, übertrifft das LightAutoML alle AutoML-Lösungen auf 12 von 15 Datensätzen, ein Siegprozentsatz von 80.

Letzte Gedanken

In diesem Artikel haben wir über LightAutoML gesprochen, ein AutoML-System, das hauptsächlich für ein europäisches Unternehmen im Finanzsektor und sein Ökosystem entwickelt wurde. Das LightAutoML-Framework wird in verschiedenen Anwendungen eingesetzt und die Ergebnisse zeigen eine überlegene Leistung, vergleichbar mit der eines Datenwissenschaftlers, sogar bei der Erstellung von hochwertigen Machine-Learning-Modellen. Das LightAutoML-Framework versucht, die folgenden Beiträge zu leisten. Zunächst wurde das LightAutoML-Framework hauptsächlich für das Ökosystem einer großen europäischen Finanz- und Bankinstitution entwickelt. Aufgrund seines Frameworks und seiner Architektur kann das LightAutoML-Framework state-of-the-art-AutoML-Frameworks in verschiedenen offenen Benchmarks sowie in Ökosystemanwendungen überbieten. Die Leistung des LightAutoML-Frameworks wird auch mit Modellen verglichen, die von Datenwissenschaftlern manuell abgestimmt werden, und die Ergebnisse zeigen eine stärkere Leistung des LightAutoML-Frameworks.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.