Künstliche Intelligenz
LightAutoML: Ein AutoML-Framework für Finanzdienstleistungen
Obwohl AutoML vor einigen Jahren an Popularität gewann, reichen die frühen Arbeiten an AutoML bis in die frühen 90er Jahre zurück, als Wissenschaftler die ersten Artikel über Hyperparameter-Optimierung veröffentlichten. Es war 2014, als die ICML die erste AutoML-Workshop organisierte, dass AutoML die Aufmerksamkeit von ML-Entwicklern auf sich zog. Einer der Hauptfokus von AutoML in all den Jahren ist das Hyperparameter-Suchproblem, bei dem das Modell eine Reihe von Optimierungsmethoden implementiert, um die besten Hyperparameter in einem großen Hyperparameter-Raum für ein bestimmtes Machine-Learning-Modell zu bestimmen. Eine weitere Methode, die häufig von AutoML-Modellen implementiert wird, ist die Schätzung der Wahrscheinlichkeit, dass ein bestimmter Hyperparameter der optimale Hyperparameter für ein bestimmtes Machine-Learning-Modell ist. Das Modell erreicht dies, indem es bayessche Methoden implementiert, die traditionell historische Daten von zuvor geschätzten Modellen und anderen Datensätzen verwenden. Neben der Hyperparameter-Optimierung versuchen andere Methoden, die besten Modelle aus einem Raum von Modellalternativen auszuwählen.
In diesem Artikel werden wir LightAutoML behandeln, ein AutoML-System, das hauptsächlich für ein europäisches Unternehmen im Finanzsektor und sein Ökosystem entwickelt wurde. Das LightAutoML-Framework wird in verschiedenen Anwendungen eingesetzt und die Ergebnisse zeigen eine überlegene Leistung, vergleichbar mit der von Datenwissenschaftlern, sogar bei der Erstellung von hochwertigen Machine-Learning-Modellen. Das LightAutoML-Framework versucht, die folgenden Beiträge zu leisten. Zunächst wurde das LightAutoML-Framework hauptsächlich für das Ökosystem eines großen europäischen Finanz- und Bankinstituts entwickelt. Aufgrund seines Frameworks und seiner Architektur ist das LightAutoML-Framework in der Lage, state-of-the-art-AutoML-Frameworks in verschiedenen offenen Benchmarks sowie in Ökosystemanwendungen zu überbieten. Die Leistung des LightAutoML-Frameworks wird auch mit Modellen verglichen, die von Datenwissenschaftlern manuell abgestimmt werden, und die Ergebnisse zeigen eine stärkere Leistung des LightAutoML-Frameworks.
Dieser Artikel zielt darauf ab, das LightAutoML-Framework in der Tiefe abzudecken, und wir erkunden den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit state-of-the-art-Frameworks. Also los geht’s.
LightAutoML: Ein AutoML-Framework für Finanzdienstleistungen
Obwohl Forscher erstmals in den 90er Jahren mit der Arbeit an AutoML begannen, hat AutoML in den letzten Jahren eine große Aufmerksamkeit erhalten, mit einigen prominenten industriellen Lösungen, die automatisch Machine-Learning-Modelle implementieren, wie Amazon’s AutoGluon, DarwinAI, H20.ai, IBM Watson AI, Microsoft AzureML und viele mehr. Die meisten dieser Frameworks implementieren eine allgemeine AutoML-Lösung, die ML-basierte Modelle automatisch über verschiedene Anwendungsklassen in Finanzdienstleistungen, Gesundheitswesen, Bildung und mehr entwickelt. Die wichtigste Annahme hinter diesem horizontalen generischen Ansatz ist, dass der Prozess der Entwicklung automatischer Modelle über alle Anwendungen hinweg identisch bleibt. Das LightAutoML-Framework implementiert jedoch einen vertikalen Ansatz, um eine AutoML-Lösung zu entwickeln, die nicht generisch ist, sondern den Bedürfnissen einzelner Anwendungen gerecht wird, in diesem Fall einem großen Finanzinstitut. Das LightAutoML-Framework ist eine vertikale AutoML-Lösung, die sich auf die Anforderungen des komplexen Ökosystems und seiner Eigenschaften konzentriert. Zunächst bietet das LightAutoML-Framework eine schnelle und nahezu optimale Hyperparameter-Suche. Obwohl das Modell diese Hyperparameter nicht direkt optimiert, liefert es dennoch zufriedenstellende Ergebnisse. Darüber hinaus hält das Modell das Gleichgewicht zwischen Geschwindigkeit und Hyperparameter-Optimierung dynamisch, um sicherzustellen, dass das Modell auf kleinen Problemen optimal und auf größeren Problemen schnell genug ist. Zweitens beschränkt das LightAutoML-Framework den Bereich der Machine-Learning-Modelle absichtlich auf nur zwei Arten: lineare Modelle und GBMs oder Gradient-Boosted-Decision-Trees, anstatt große Ensembles von verschiedenen Algorithmen zu implementieren. Der Hauptgrund für die Beschränkung des Bereichs der Machine-Learning-Modelle ist, die Ausführungszeit des LightAutoML-Frameworks ohne negative Auswirkungen auf die Leistung für das gegebene Problem und die Daten zu beschleunigen. Drittens präsentiert das LightAutoML-Framework eine einzigartige Methode zur Auswahl von Vorverarbeitungsschemata für verschiedene Features, die in den Modellen auf der Grundlage bestimmter Auswahlregeln und Meta-Statistiken verwendet werden. Das LightAutoML-Framework wird auf einer breiten Palette von offenen Datenquellen über eine breite Palette von Anwendungen bewertet.
LightAutoML: Methodik und Architektur
Das LightAutoML-Framework besteht aus Modulen, die als Presets bezeichnet werden und für die End-to-End-Modellentwicklung für typische Machine-Learning-Aufgaben konzipiert sind. Derzeit unterstützt das LightAutoML-Framework Preset-Module. Zunächst konzentriert sich das TabularAutoML-Preset auf die Lösung klassischer Machine-Learning-Probleme, die auf tabellarischen Datensätzen definiert sind. Zweitens implementiert das White-Box-Preset einfache interpretierbare Algorithmen wie logistische Regression anstelle von WoE- oder Weight-of-Evidence-Codierung und diskreten Features, um binäre Klassifizierungsaufgaben auf tabellarischen Daten zu lösen. Die Implementierung einfacher interpretierbarer Algorithmen ist eine gängige Praxis, um die Wahrscheinlichkeit einer Anwendung aufgrund der Interpretierbarkeitsbeschränkungen durch verschiedene Faktoren zu modellieren. Drittens ist das NLP-Preset in der Lage, tabellarische Daten mit NLP- oder Natural-Language-Processing-Tools zu kombinieren, einschließlich vorgefertigter tieferrer Lernmodelle und spezifischer Feature-Extractor. Schließlich arbeitet das CV-Preset mit Bilddaten mithilfe einiger grundlegender Tools. Es ist wichtig zu beachten, dass das LightAutoML-Modell alle vier Presets unterstützt, das Framework jedoch nur das TabularAutoML im Produktions-System verwendet.
Die typische Pipeline des LightAutoML-Frameworks ist in dem folgenden Bild enthalten.

Jede Pipeline enthält drei Komponenten. Zunächst ist der Reader ein Objekt, das den Aufgabentyp und die Rohdaten als Eingabe erhält, wichtige Metadatenberechnungen durchführt, die anfänglichen Daten reinigt und die Datenmanipulationen bestimmt, die vor der Anpassung verschiedener Modelle durchgeführt werden müssen. Als Nächstes enthalten die LightAutoML-Innerdatensätze CV-Iterator und Metadaten, die Validierungsschemata für die Datensätze implementieren. Die dritte Komponente sind die mehrfachen Machine-Learning-Pipelines, die gestapelt und/oder gemischt werden, um eine einzelne Vorhersage zu erhalten. Eine Machine-Learning-Pipeline innerhalb der Architektur des LightAutoML-Frameworks ist eine der mehrfachen Machine-Learning-Modelle, die ein gemeinsames Datenvalidierungs- und Vorverarbeitungsschema teilen. Der Vorverarbeitungsschritt kann bis zu zwei Feature-Selektionschritte, einen Feature-Engineering-Schritt oder leer sein, wenn keine Vorverarbeitung erforderlich ist. Die ML-Pipelines können unabhängig auf den gleichen Datensätzen berechnet und dann mithilfe von Mittelwert (oder gewichteter Mittelwert) gemischt werden. Alternativ kann ein Stacking-Ensemble-Schema verwendet werden, um mehrstufige Ensemble-Architekturen zu erstellen.
LightAutoML-Tabular-Preset
Innerhalb des LightAutoML-Frameworks ist TabularAutoML die Standard-Pipeline und wird im Modell implementiert, um drei Arten von Aufgaben auf tabellarischen Daten zu lösen: binäre Klassifizierung, Regression und multiklassifizierende Klassifizierung für eine breite Palette von Leistungsmerkmalen und Verlustfunktionen. Eine Tabelle mit den folgenden vier Spalten: kategorisierte Features, numerische Features, Zeitstempel und eine einzelne Zielspalte mit Klassenlabels oder kontinuierlichen Werten, wird dem TabularAutoML-Modul als Eingabe zugeführt. Eines der Hauptziele bei der Entwicklung des LightAutoML-Frameworks war es, ein Werkzeug für schnelles Hypothesentesten zu entwerfen, ein wichtiger Grund, warum das Framework brute-force-Methoden für Pipeline-Optimierung vermeidet und sich auf Effizienztechniken und Modelle konzentriert, die auf einer breiten Palette von Datensätzen funktionieren.
Auto-Typisierung und Daten-Vorverarbeitung
Um verschiedene Arten von Features auf unterschiedliche Weise zu behandeln, muss das Modell jeden Feature-Typ kennen. In der Situation, in der es eine einzelne Aufgabe mit einem kleinen Datensatz gibt, kann der Benutzer jeden Feature-Typ manuell angeben. Allerdings ist die manuelle Angabe jedes Feature-Typs in Situationen, die Hunderte von Aufgaben mit Datensätzen enthalten, die Tausende von Features enthalten, keine praktikable Option. Für das TabularAutoML-Preset muss das LightAutoML-Framework Features in drei Klassen zuordnen: numerisch, Kategorie und Datum. Eine einfache und offensichtliche Lösung besteht darin, die Spaltenarray-Datentypen als tatsächliche Feature-Typen zu verwenden, d. h. float/int-Spalten auf numerische Features, Zeitstempel oder Zeichenfolgen, die als Zeitstempel parsebar sind, auf Datum und andere auf Kategorie. Allerdings ist diese Zuordnung nicht die beste, da numerische Datentypen in Kategorie-Spalten häufig vorkommen.
Validierungsschemata
Validierungsschemata sind ein wichtiger Bestandteil von AutoML-Frameworks, da die Daten in der Industrie im Laufe der Zeit ändern und diese Änderung die IID- oder Independent-Identically-Distributed-Annahmen bei der Entwicklung des Modells irrelevant macht. AutoML-Modelle verwenden Validierungsschemata, um ihre Leistung zu schätzen, Hyperparameter zu suchen und Vorhersagen außerhalb der Falte zu generieren. Die TabularAutoML-Pipeline implementiert drei Validierungsschemata:
- KFold-Cross-Validation: KFold-Cross-Validation ist das Standard-Validierungsschema für die TabularAutoML-Pipeline, einschließlich GroupKFold für Verhaltensmodelle und stratifizierte KFold für Klassifizierungsaufgaben.
- Holdout-Validierung: Das Holdout-Validierungsschema wird implementiert, wenn die Holdout-Menge angegeben ist.
- Benutzerdefinierte Validierungsschemata: Benutzerdefinierte Validierungsschemata können von Benutzern je nach ihren individuellen Anforderungen erstellt werden. Benutzerdefinierte Validierungsschemata umfassen Cross-Validation- und Zeitreihen-Split-Schemata.
Feature-Auswahl
Obwohl die Feature-Auswahl ein wichtiger Aspekt der Modellentwicklung nach Industriestandards ist, da sie die Reduzierung der Inferenz- und Modellimplementierungskosten ermöglicht, konzentrieren sich die meisten AutoML-Lösungen nicht auf dieses Problem. Im Gegensatz dazu implementiert die TabularAutoML-Pipeline drei Feature-Auswahlstrategien: Keine Auswahl, Importance-Cut-Off-Auswahl und Importance-basierte Vorwärtsauswahl. Von diesen ist die Importance-Cut-Off-Auswahl die Standard-Feature-Auswahlstrategie. Darüber hinaus gibt es zwei primäre Methoden, um die Feature-Wichtigkeit zu schätzen: split-basierte Baumwichtigkeit und Permutation-Wichtigkeit des GBM-Modells oder Gradient-Boosted-Decision-Trees. Das primäre Ziel der Importance-Cut-Off-Auswahl ist es, Features abzulehnen, die dem Modell nicht helfen, was es dem Modell ermöglicht, die Anzahl der Features ohne negative Auswirkungen auf die Leistung zu reduzieren, ein Ansatz, der die Modellinferenz und -schulung beschleunigen kann.

Das obige Bild vergleicht verschiedene Auswahlstrategien auf binären Bankendatensätzen.
Hyperparameter-Tuning
Die TabularAutoML-Pipeline implementiert verschiedene Ansätze zum Abstimmen von Hyperparametern auf der Grundlage dessen, was abgestimmt wird.
- Frühzeitiges Stoppen der Hyperparameter-Optimierungwählt die Anzahl der Iterationen für alle Modelle während der Trainingsphase aus.
- Experten-System-Hyperparameter-Optimierungist eine einfache Möglichkeit, Hyperparameter für Modelle in einer zufriedenstellenden Weise zu setzen. Es verhindert, dass das endgültige Modell eine starke Abnahme des Scores im Vergleich zu hart abgestimmten Modellen erfährt.
- Tree-Structured-Parzen-Schätzung oder TPEfür GBM- oder Gradient-Boosted-Decision-Tree-Modelle. TPE ist eine gemischte Abstimmungsstrategie, die die Standardwahl in der LightAutoML-Pipeline ist. Für jedes GMB-Framework trainiert das LightAutoML-Framework zwei Modelle: das erste erhält Experten-Hyperparameter, das zweite wird fein abgestimmt, um in den Zeitbudget zu passen.
- Grid-Search-Hyperparameter-Optimierungwird in der TabularAutoML-Pipeline implementiert, um die Regularisierungsparameter eines linearen Modells zusammen mit dem frühen Stoppen und dem Warm-Start fein abzustimmen.
Das Modell stimmt alle Parameter ab, indem es die Metrikfunktion maximiert, die entweder vom Benutzer definiert oder standardmäßig für die gelöste Aufgabe ist.

LightAutoML: Experiment und Leistung
Um die Leistung zu bewerten, wird das TabularAutoML-Preset innerhalb des LightAutoML-Frameworks mit bereits existierenden Open-Source-Lösungen auf verschiedenen Aufgaben verglichen und die überlegene Leistung des LightAutoML-Frameworks untermauert. Zunächst wird der Vergleich auf dem OpenML-Benchmark durchgeführt, der auf 35 binären und multiklassifizierenden Klassifizierungsaufgaben-Datensätzen bewertet wird. Die folgende Tabelle fasst den Vergleich des LightAutoML-Frameworks mit bestehenden AutoML-Systemen zusammen.

Wie zu sehen ist, übertrifft das LightAutoML-Framework alle anderen AutoML-Systeme in 20 Datensätzen innerhalb des Benchmarks. Die folgende Tabelle enthält den detaillierten Vergleich im Datensatz-Kontext, der darauf hinweist, dass das LightAutoML unterschiedliche Leistungen auf verschiedenen Klassen von Aufgaben liefert. Für binäre Klassifizierungsaufgaben fällt die Leistung des LightAutoML-Frameworks zurück, während es für Aufgaben mit einer großen Menge an Daten eine überlegene Leistung liefert.

Die folgende Tabelle vergleicht die Leistung des LightAutoML-Frameworks mit AutoML-Systemen auf 15 Bankendatensätzen, die eine Reihe von binären Klassifizierungsaufgaben enthalten. Wie zu sehen ist, übertrifft das LightAutoML alle AutoML-Lösungen in 12 von 15 Datensätzen, was einer Gewinnrate von 80 entspricht.

Final Thoughts
In diesem Artikel haben wir über LightAutoML gesprochen, ein AutoML-System, das hauptsächlich für ein europäisches Unternehmen im Finanzsektor und sein Ökosystem entwickelt wurde. Das LightAutoML-Framework wird in verschiedenen Anwendungen eingesetzt und die Ergebnisse zeigen eine überlegene Leistung, vergleichbar mit der von Datenwissenschaftlern, sogar bei der Erstellung von hochwertigen Machine-Learning-Modellen. Das LightAutoML-Framework versucht, die folgenden Beiträge zu leisten. Zunächst wurde das LightAutoML-Framework hauptsächlich für das Ökosystem eines großen europäischen Finanz- und Bankinstituts entwickelt. Aufgrund seines Frameworks und seiner Architektur ist das LightAutoML-Framework in der Lage, state-of-the-art-AutoML-Frameworks in verschiedenen offenen Benchmarks sowie in Ökosystemanwendungen zu überbieten. Die Leistung des LightAutoML-Frameworks wird auch mit Modellen verglichen, die von Datenwissenschaftlern manuell abgestimmt werden, und die Ergebnisse zeigen eine stärkere Leistung des LightAutoML-Frameworks. Das LightAutoML-Framework ist in der Lage, state-of-the-art-AutoML-Frameworks in verschiedenen offenen Benchmarks sowie in Ökosystemanwendungen zu überbieten. Die Leistung des LightAutoML-Frameworks ist auch mit Modellen verglichen, die von Datenwissenschaftlern manuell abgestimmt werden, und die Ergebnisse zeigen eine stärkere Leistung des LightAutoML-Frameworks.












