Künstliche Intelligenz
„Einfache“ KI kann die Kreditentscheidungen von Bankmanagern mit einer Genauigkeit von über 95 % vorhersehen

Ein neues Forschungsprojekt hat herausgefunden, dass die Ermessensentscheidungen menschlicher Bankmanager durch maschinelle Lernsysteme mit einer Genauigkeit von mehr als 95 % reproduziert werden können.
Unter Verwendung derselben Daten, die Bankmanagern in einem privilegierten Datensatz zur Verfügung standen, war der Algorithmus mit der besten Leistung im Test a Zufälliger Wald Implementierung – ein ziemlich einfacher Ansatz, der XNUMX Jahre alt, das aber immer noch ein neuronales Netzwerk übertrifft, wenn es darum geht, das Verhalten menschlicher Bankmanager nachzuahmen, die endgültige Entscheidungen über Kredite treffen.

Der Random-Forest-Algorithmus, einer von vier Algorithmen, die im Rahmen des Projekts auf Herz und Nieren getestet wurden, erreicht trotz der relativen Einfachheit des Algorithmus eine hohe Bewertung, die mit der Leistung von Bankmanagern vergleichbar ist. Quelle: Manager versus Maschinen: Reproduzieren Algorithmen die menschliche Intuition bei der Bonitätsbewertung?, https://arxiv.org/pdf/2202.04218.pdf
Die Forscher, die Zugang zu einem firmeneigenen Datensatz mit 37,449 Kreditratings von 4,414 Einzelkunden einer „großen Geschäftsbank“ hatten, weisen an verschiedenen Stellen in dem Vorabdruck darauf hin, dass die automatisierte Datenanalyse, die den Managern für ihre Entscheidungsfindung zur Verfügung gestellt wird, mittlerweile so präzise geworden sei, dass Bankmanager nur noch selten davon abweichen. Dies könnte darauf hindeuten, dass die Rolle der Bankmanager im Kreditgenehmigungsprozess hauptsächlich darin besteht, jemanden zu behalten, der im Falle eines Kreditausfalls entlassen werden kann.
Das Papier sagt:
„Aus praktischer Sicht ist es erwähnenswert, dass unsere Ergebnisse darauf hindeuten könnten, dass die Bank Kredite schneller und kostengünstiger bearbeiten könnte, wenn es keine menschlichen Kreditmanager mit sehr vergleichbaren Ergebnissen gäbe.“ Obwohl Manager von Natur aus eine Vielzahl von Aufgaben ausführen, lässt sich kaum argumentieren, dass sie für diese spezielle Aufgabe unerlässlich sind und ein relativ einfacher Algorithmus genauso gut funktionieren kann.
„Es ist auch wichtig zu beachten, dass diese Algorithmen mit zusätzlichen Daten und Rechenleistung auch weiter verbessert werden können.“
Das Krepppapier ist betitelt Manager versus Maschinen: Reproduzieren Algorithmen die menschliche Intuition bei der Bonitätsbewertung?, und kommt vom Department of Economics und Department of Statistics der UoC Irvine und der Bank of Communications BBM in Brasilien.
Roboterisches menschliches Verhalten bei der Bonitätsbeurteilung
Die Ergebnisse bedeuten nicht, dass Systeme des maschinellen Lernens zwangsläufig bessere Entscheidungen über Kredite und Kreditratings treffen können, sondern vielmehr, dass selbst Algorithmen, die heute als recht „einfach“ gelten, in der Lage sind, aus denselben Daten dieselben Schlussfolgerungen zu ziehen wie Menschen.
Der Bericht charakterisiert Bankmanager implizit als eine Art „Meatware-Firewall“, deren verbleibende Kernfunktion darin besteht, die Risikobewertungen zu erhöhen, die ihnen das statistische und analytische Scorecard-System vorlegt (eine Praxis, die im Bankwesen als „Notching“ bekannt ist).
„Im Laufe der Zeit scheint es, dass Manager weniger Ermessensspielraum haben, was auf eine verbesserte Leistung oder die Nutzung algorithmischer Mittel wie der Scorecard hindeuten könnte.“
Die Forscher stellten außerdem fest:
„Die Ergebnisse dieser Studie zeigen, dass diese spezielle Aufgabe, die von hochqualifizierten Bankmanagern ausgeführt wird, tatsächlich durch relativ einfache Algorithmen leicht repliziert werden kann. Die Leistung dieser Algorithmen könnte durch Feinabstimmung verbessert werden, um Branchenunterschiede zu berücksichtigen. Natürlich könnten sie auch leicht um zusätzliche Ziele erweitert werden, beispielsweise um Fairnessaspekte bei der Kreditvergabe oder die Förderung anderer sozialer Ziele.“

Finden Sie den Unterschied: Die Risikobewertung der Scorecard-Ratings (automatischen Ratings) wird von Bankmanagern, deren Entscheidungen in der Arbeit untersucht wurden, statistisch nach oben korrigiert („gekerbt“) – ein reproduzierbares Verfahren.
Da die Daten darauf schließen lassen, dass Bankmanager dies auf nahezu algorithmische und vorhersehbare Weise tun, sind ihre Anpassungen nicht allzu schwer zu replizieren. Der Prozess hinterfragt lediglich die ursprünglichen Scorecard-Daten und passt die Risikobewertung innerhalb vorhersehbarer Grenzen nach oben an.
Methode und Daten
Die erklärte Absicht des Projekts bestand darin, die Entscheidungen der Bankmanager auf der Grundlage des Bewertungssystems und anderer ihnen zur Verfügung stehender Variablen vorherzusehen, und nicht darin, innovative Alternativsysteme zu entwickeln, die die derzeitigen Rahmenbedingungen für Kreditantragsverfahren ersetzen sollen.
Die für das Projekt getesteten Methoden des maschinellen Lernens waren Multinomial Logistic LASSO (MNL-LASSO), Neuronale Netzeund zwei Implementierungen von Klassifikations- und Regressionsbäume (CART): Random Forest und Gradientenverstärkung.
Das Projekt berücksichtigte sowohl die Scorecard-Daten für eine reale Bonitätsbewertungsaufgabe als auch deren Ergebnis, wie aus den Daten hervorgeht. Das Scorecard-Rating ist eine der ältesten algorithmischen Methoden, bei der Schlüsselvariablen für den vorgeschlagenen Kredit in einer Risikomatrix berechnet werden, oft mit so einfachen Mitteln wie: logistische Regression.
Ergebnisse
MNL-LASSO schnitt unter den getesteten Algorithmen am schlechtesten ab und klassifizierte im Vergleich zum realen Manager in den ausgewerteten Fällen nur 53 % der Kredite erfolgreich.
Die anderen drei Methoden (wobei CART Random Forest und Gradient Boosting umfasst) erzielten alle mindestens 90 % in Bezug auf Genauigkeit und quadratischen Mittelfehler (RMSE).
Die CART-Implementierung von Random Forest erreichte jedoch beeindruckende 96 %, dicht gefolgt von Gradient Boosting.

Auch wenn die Scorecard-Bewertung während der Ablationsstudien aus den Tests entfernt wurde (unterer Tabellenabschnitt), erzielen die Algorithmen eine außergewöhnliche Leistung bei der Nachbildung der Bonitätseinschätzung menschlicher Bankmanager.
Überraschenderweise stellten die Forscher fest, dass ihr implementiertes neuronales Netzwerk nur 93 % erreichte, mit einer größeren RMSE-Lücke, was zu Risikowerten führte, die mehrere Stufen von den von Menschen erstellten Schätzungen entfernt waren.
Die Autoren stellen fest:
„[Diese] Ergebnisse deuten nicht darauf hin, dass eine Methode die andere übertrifft, soweit es um eine externe Genauigkeitsmetrik wie die objektive Ausfallwahrscheinlichkeit geht.“ Es ist durchaus möglich, dass beispielsweise das Neuronale Netzwerk für diese Klassifizierungsaufgabe am besten geeignet ist.
„Hier besteht das Ziel lediglich darin, die Wahl des menschlichen Managers zu replizieren, und bei dieser Aufgabe scheint der Random Forest bei den untersuchten Metriken alle anderen Methoden zu übertreffen.“
Die 5 %, die das System nicht reproduzieren konnte, sind den Forschern zufolge auf die Heterogenität der abgedeckten Branchen zurückzuführen. Die Autoren stellen fest, dass fast alle diese Unterschiede auf 5 % der Manager zurückzuführen sind, und glauben, dass ausgefeiltere Systeme letztendlich solche Anwendungsfälle abdecken und das Defizit schließen könnten.
Verantwortlichkeit lässt sich nur schwer automatisieren
Wenn sich dies in nachfolgenden, verwandten Projekten bestätigt, legt die Forschung nahe, dass die Rolle des „Bankmanagers“ zu einem wachsenden Kader einst mächtiger Positionen mit Autorität und Urteilsvermögen hinzugefügt werden könnte, die auf den Status eines „Aufsichtsbeamten“ reduziert werden, während die Genauigkeit vergleichbarer Maschinensysteme langfristig getestet wird; und untergräbt die häufig vertretene Position dass bestimmte kritische Aufgaben nicht automatisiert werden können.
Die gute Nachricht für Bankmanager scheint jedoch zu sein, dass aus politischer Sicht die Notwendigkeit menschlicher Verantwortung in kritischen gesellschaftlichen Prozessen wie der Bonitätsbewertung ihre derzeitigen Rollen wahrscheinlich bewahren wird – selbst wenn die Handlungen der Rollen sollen durch maschinelle Lernsysteme vollständig reproduzierbar werden.
Erstveröffentlichung am 18. Februar 2022.