Künstliche Intelligenz

‘Einfach’ künstliche Intelligenz kann die Kreditentscheidungen von Bankmanagern mit über 95%iger Genauigkeit vorhersagen

mm

Ein neues Forschungsprojekt hat herausgefunden, dass die diskretionären Entscheidungen, die von menschlichen Bankmanagern getroffen werden, von maschinellen Lernsystemen mit einer Genauigkeit von über 95% repliziert werden können.

Mit den gleichen Daten, die für Bankmanager in einem privilegierten Datensatz verfügbar sind, war die beste Algorithmus-Implementierung in dem Test eine Random Forest-Implementierung – ein ziemlich einfacher Ansatz, der zwanzig Jahre alt ist, aber der immer noch eine neuronale Netzwerk-Implementierung übertraf, als es darum ging, das Verhalten von menschlichen Bankmanagern bei der Formulierung von endgültigen Entscheidungen über Kredite nachzuahmen.

Der Random Forest-Algorithmus, einer von vier, die in dem Projekt getestet wurden, erreicht ein hohes, menschliches Äquivalent-Scoren vs. die Leistung von Bankmanagern, trotz der relativen Einfachheit des Algorithmus.

Der Random Forest-Algorithmus, einer von vier, die in dem Projekt getestet wurden, erreicht ein hohes, menschliches Äquivalent-Scoren vs. die Leistung von Bankmanagern, trotz der relativen Einfachheit des Algorithmus. Quelle: Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings?, https://arxiv.org/pdf/2202.04218.pdf

Die Forscher, die Zugang zu einem proprietären Datensatz von 37.449 Kreditbewertungen über 4.414 einzigartige Kunden bei einer “großen kommerziellen Bank” hatten, suggerieren an verschiedenen Stellen in dem Preprint-Papier, dass die automatisierte Datenanalyse, die den Managern zur Entscheidungsfindung zur Verfügung steht, jetzt so genau ist, dass Bankmanager nur selten davon abweichen, was darauf hindeutet, dass die Rolle der Bankmanager im Kreditgenehmigungsprozess hauptsächlich darin besteht, jemanden zu behalten, den man im Falle eines Kreditverlusts entlassen kann.

Das Papier besagt:

‘Aus praktischer Sicht ist es erwähnenswert, dass unsere Ergebnisse darauf hindeuten könnten, dass die Bank Kredite schneller und günstiger bearbeiten könnte, ohne menschliche Kreditmanager, mit sehr vergleichbaren Ergebnissen. Während Manager natürlich eine Vielzahl von Aufgaben ausführen, ist es schwer zu argumentieren, dass sie für diese spezifische Aufgabe unerlässlich sind und ein relativ einfacher Algorithmus genauso gut abschneiden kann.’

‘Es ist auch wichtig zu beachten, dass diese Algorithmen mit zusätzlichen Daten und Rechenleistung weiter verbessert werden können.’

Das Papier trägt den Titel Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings? und stammt aus dem Department of Economics und Department of Statistics an der UoC Irvine und der Bank of Communications BBM in Brasilien.

Roboter-ähnliches menschliches Verhalten bei Kreditbewertungen

Die Ergebnisse bedeuten nicht, dass maschinelle Lernsysteme notwendigerweise besser darin sind, Entscheidungen über Kredite und Kreditbewertungen zu treffen, sondern vielmehr, dass sogar Algorithmen, die jetzt als ziemlich “niedrig” angesehen werden, in der Lage sind, die gleichen Schlussfolgerungen wie Menschen aus den gleichen Daten zu ziehen.

Der Bericht charakterisiert Bankmanager implizit als eine Art “Fleischware-Feuerwand”, deren Kernfunktion darin besteht, die Risikobewertungen, die das statistische und analytische Scorecard-System ihnen präsentiert, zu erhöhen (eine Praxis, die in der Bankenwelt als “Notching” bekannt ist).

‘Im Laufe der Zeit scheint es, dass Manager weniger Ermessensspielraum haben, was darauf hindeuten könnte, dass die Leistung oder die Abhängigkeit von algorithmischen Mitteln wie dem Scorecard-System verbessert wurde.’

Die Forscher bemerkten auch:

‘Die Ergebnisse in diesem Papier zeigen, dass diese spezifische Aufgabe, die von hoch qualifizierten Bankmanagern ausgeführt wird, tatsächlich leicht von relativ einfachen Algorithmen repliziert werden kann. Die Leistung dieser Algorithmen könnte durch Feinabstimmung verbessert werden, um Unterschiede zwischen Branchen zu berücksichtigen, und könnte leicht auf die Einbeziehung zusätzlicher Ziele wie die Berücksichtigung von Fairness in Kreditpraktiken oder die Förderung anderer sozialer Ziele erweitert werden.’

Spot the difference: the risk assessment of scorecard (automatic) ratings are statistically bumped up ('notched') by bank managers whose decisions were studied in the work – a replicable procedure.

Spot the difference: the risk assessment of scorecard (automatic) ratings are statistically bumped up (‘notched’) by bank managers whose decisions were studied in the work – a replicable procedure.

Da die Daten darauf hindeuten, dass Bankmanager dies auf fast algorithmische und vorhersehbare Weise tun, sind ihre Anpassungen nicht besonders schwierig zu replizieren. Der Prozess “zweifelt” die ursprünglichen Scorecard-Daten einfach und passt die Risikobewertung innerhalb vorhersehbarer Grenzen nach oben an.

Methode und Daten

Das erklärte Ziel des Projekts bestand darin, vorherzusagen, welche Entscheidungen Bankmanager treffen würden, basierend auf dem Bewertungssystem und anderen Variablen, die ihnen zur Verfügung standen, anstatt innovative alternative Systeme zu entwickeln, die die aktuellen Kreditantragsverfahren ersetzen sollen.

Die für das Projekt getesteten maschinellen Lernmethoden waren Multinomial Logistic LASSO (MNL-LASSO), Neuronale Netze und zwei Implementierungen von Classification and Regression Trees (CART): Random Forest und Gradient Boosting.

Das Projekt berücksichtigte sowohl die Scorecard-Daten für eine reale Kreditbewertungsaufgabe als auch deren Ergebnis, wie es in den Daten bekannt ist. Scorecard-Bewertung ist eine der ältesten algorithmischen Praktiken, bei der wichtige Variablen für den vorgeschlagenen Kredit in eine Risikomatrix berechnet werden, oft durch Mittel wie logistische Regression.

Ergebnisse

MNL-LASSO schnitt unter den getesteten Algorithmen am schlechtesten ab und klassifizierte erfolgreich nur 53% der Kredite, im Vergleich zu den realen Managern in den ausgewerteten Fällen.

Die anderen drei Methoden (mit CART, das Random Forest und Gradient Boosting umfasst) erreichten alle eine Genauigkeit von mindestens 90% und einen mittleren quadratischen Fehler (RMSE) von RMSE.

Allerdings erreichte die Random Forest-Implementierung von CART ein beeindruckendes Ergebnis von fast 96%, gefolgt von Gradient Boosting.

Even with the scorecard rating removed from the tests during ablation studies (lower table section), the algorithms achieve extraordinary performance in replicating human bank managers' discernment for credit rating.

Even with the scorecard rating removed from the tests during ablation studies (lower table section), the algorithms achieve extraordinary performance in replicating human bank managers’ discernment for credit rating.

Überraschenderweise fanden die Forscher heraus, dass ihr implementiertes neuronales Netz nur 93% erreichte, mit einer größeren RMSE-Lücke, die Risikowerte mehrere Notches von den menschlich erzeugten Schätzungen entfernt produzierte.

Die Autoren bemerken:

‘[Diese] Ergebnisse zeigen nicht, dass eine Methode die andere in Bezug auf eine externe Genauigkeitsmetrik wie die objektive Ausfallwahrscheinlichkeit übertrifft. Es ist durchaus möglich, dass das neuronale Netz für diese Klassifizierungsaufgabe am besten geeignet ist.’

‘Hier ist das Ziel nur, die Wahl des menschlichen Managers zu replizieren, und für diese Aufgabe scheint Random Forest alle anderen Methoden in den untersuchten Metriken zu überbieten.’

Die 5%, die das System nicht reproduzieren konnte, werden laut den Forschern durch die Heterogenität der abgedeckten Branchen erklärt. Die Autoren bemerken, dass 5% der Manager fast alle diese Abweichungen verursachen, und glauben, dass komplexere Systeme letztendlich diese Anwendungsfälle abdecken und die Lücke schließen könnten.

Verantwortlichkeit ist schwierig zu automatisieren

Wenn diese Forschung in nachfolgenden verwandten Projekten bestätigt wird, deutet sie darauf hin, dass die Rolle des “Bankmanagers” zu einer wachsenden Gruppe von einst mächtigen Autoritäts- und Urteilspositionen hinzugefügt werden könnte, die auf “Aufseher-Status” reduziert werden, während die Genauigkeit vergleichbarer maschineller Systeme über einen längeren Zeitraum getestet wird; und untergräbt die allgemein vertretene Position, dass bestimmte kritische Aufgaben nicht automatisiert werden können.

Allerdings wäre die gute Nachricht für Bankmanager, dass, aus politischer Sicht, die Notwendigkeit menschlicher Verantwortlichkeit in kritischen sozialen Prozessen wie der Kreditbewertung ihre aktuellen Rollen wahrscheinlich erhalten wird – selbst wenn die Handlungen in diesen Rollen vollständig von maschinellen Lernsystemen repliziert werden können.

 

Erstveröffentlicht am 18. Februar 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.