Umělá inteligence

‘Jednoduchá’ AI může předpovídat rozhodnutí bankovních manažerů o úvěrech s přesností přes 95%

mm

Nový výzkumný projekt zjistil, že diskreční rozhodnutí učiněná lidskými bankovními manažery lze replikovat pomocí systémů strojového učení s přesností více než 95%.

Používaje stejné údaje dostupné bankovním manažerům v privilegovaném datasetu, nejlepší algoritmus v testu byl implementace Random Forest – poměrně jednoduchý přístup, který je dvacet let starý, ale který stále překonal neuronovou síť při pokusu o napodobení chování lidských bankovních manažerů při formulování konečných rozhodnutí o úvěrech.

Algoritmus Random Forest, jeden ze čtyř, který prošel testy, dosahuje vysoké skóre srovnatelné s lidskými bankovními manažery, navzdory relativní jednoduchosti algoritmu.

Algoritmus Random Forest, jeden ze čtyř, který prošel testy, dosahuje vysoké skóre srovnatelné s lidskými bankovními manažery, navzdory relativní jednoduchosti algoritmu. Source: Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings?, https://arxiv.org/pdf/2202.04218.pdf

Výzkumníci, kteří měli přístup k proprietárnímu datasetu 37 449 úvěrových ratingů napříč 4 414 unikátními zákazníky v “velké komerční bance”, naznačují na různých místech v předtiskové práci, že automatizovaná analýza dat, kterou manažeři dostanou k rozhodnutí, se stala tak přesnou, že bankovní manažeři zřídka odchylují od ní, potenciálně signalizující, že role bankovních manažerů v procesu schvalování úvěrů se skládá hlavně z toho, aby někdo byl odpovědný v případě defaultu úvěru.

Práce uvádí:

‘Z praktického hlediska je třeba poznamenat, že naše výsledky mohou naznačit, že banka by mohla zpracovat úvěry rychleji a levněji v nepřítomnosti lidských manažerů úvěrů s velmi srovnatelnými výsledky. Zatímco manažeři přirozeně plní řadu úkolů, je těžké argumentovat, že jsou pro tento konkrétní úkol nezbytní a relativně jednoduchý algoritmus může fungovat stejně dobře.

‘Je také důležité poznamenat, že s dalšími daty a výpočetním výkonem lze tyto algoritmy dále zlepšit.’

Práce paper se jmenuje Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings? a pochází z Department of Economics a Department of Statistics na UoC Irvine a Bank of Communications BBM v Brazílii.

Robotické lidské chování v hodnoceních úvěrů

Výsledky neznamenají, že systémy strojového učení jsou nutně lepší při rozhodování o úvěrech a úvěrových ratingech, ale spíše to, že i algoritmy, které jsou nyní považovány za bastante “nízké”, jsou schopny vyvodit stejné závěry jako lidé z stejných dat.

Zpráva implicitně charakterizuje bankovní manažery jako druh “masového firewallu”, jehož jádrová zbývající funkce spočívá v tom, že zvyšuje rizika skóre, které jim předkládá statistický a analytický scorecard systém (praxe známá v bankovnictví jako “notching”).

‘Časem se zdá, že manažeři používají méně uvážlivosti, což by mohlo naznačit zlepšenou výkonnost nebo závislost na algoritmických prostředcích, jako je scorecard.’

Výzkumníci také poznamenali:

‘Výsledky v této práci ukazují, že tato konkrétní úloha prováděná vysoce kvalifikovanými bankovními manažery může být ve skutečnosti snadno replikována relativně jednoduchými algoritmy. Výkonnost těchto algoritmů by mohla být zlepšena jemným laděním, aby zohledňovala rozdíly napříč odvětvími, a samozřejmě by mohla být snadno rozšířena o další cíle, jako je zahrnutí úvah o spravedlivosti v úvěrových postupech nebo podporu dalších sociálních cílů.’

Rozdíly: hodnocení rizika scorecard (automatická) jsou statisticky zvýšena ('notched') bankovními manažery, jejichž rozhodnutí byla studována v práci – replikovatelný postup.

Rozdíly: hodnocení rizika scorecard (automatická) jsou statisticky zvýšena (‘notched’) bankovními manažery, jejichž rozhodnutí byla studována v práci – replikovatelný postup.

Jelikož data naznačují, že bankovní manažeři dělají toto téměř algoritmickým a předvídatelným způsobem, jejich úpravy nejsou tak těžké replikovat. Proces jednoduše “druhé hádání” původních scorecard dat a upravuje riziko ratingu směrem nahoru v předvídatelných mezích.

Metoda a data

Cílem projektu bylo předpovědět, jaká rozhodnutí bankovní manažeři učiní, na základě scorecard systému a dalších proměnných dostupných jim, spíše než vyvinout inovativní alternativní systémy navržené k nahrazení stávajících rámců postupů žádostí o úvěr.

Metody strojového učení testované pro projekt byly Multinomial Logistic LASSO (MNL-LASSO), neuronové sítě a dvě implementace Classification and Regression Trees (CART): Random Forest a Gradient Boosting.

Projekt zvažoval jak scorecard data pro reálnou úlohu úvěrového ratingu, tak jeho výsledek, jak je známo v datech. Scorecard rating je jednou z nejstarších algoritmických praktik, kde jsou klíčové proměnné pro navrhovaný úvěr vypočteny do rizika matice, často pomocí prostředků, jako je logistická regrese.

Výsledky

MNL-LASSO fungoval nejhorší mezi testovanými algoritmy, úspěšně klasifikoval pouze 53% úvěrů, ve srovnání s reálným manažerem v případech, které byly vyhodnoceny.

Ostatní tři metody (s CART zahrnující Random Forest a Gradient Boosting) všechny dosáhly alespoň 90% přesnosti a Root Mean Square Error (RMSE).

Nicméně, implementace Random Forest CART dosáhla úžasného téměř 96%, následovaná Gradient Boosting.

I když byl scorecard rating odstraněn z testů během ablačních studií (dolní sekce tabulky), algoritmy dosahují mimořádného výkonu při replikaci lidského bankovního manažera při úvěrovém ratingu.

I když byl scorecard rating odstraněn z testů během ablačních studií (dolní sekce tabulky), algoritmy dosahují mimořádného výkonu při replikaci lidského bankovního manažera při úvěrovém ratingu.

Překvapivě, výzkumníci zjistili, že jejich implementovaná neuronová síť dosáhla pouze 93%, se širším rozdílem RMSE, produkovala rizika několik notchů od lidských odhadů.

Autoři pozorují:

‘[Tyto] výsledky neznamenají, že jedna metoda překonává druhou, pokud jde o vnější metriku přesnosti, jako je objektivní defaultní pravděpodobnost. Je docela možné, že neuronová síť je například nejlepší pro tuto klasifikační úlohu.

‘Zde je cílem pouze replikovat výběr lidského manažera a pro tuto úlohu Random Forest vypadá, že překonává všechny ostatní metody napříč metrikami, které byly vyšetřeny.’

5% toho, co systém nemohl reprodukovat, je podle výzkumníků způsobeno heterogenitou pokrytých odvětví. Autoři poznamenají, že 5% manažerů tvoří téměř všechny tyto odchylky a věří, že více propracované systémy by nakonec mohly pokrýt takové případy a uzavřít mezery.

Odpovědnost je obtížné automatizovat

Pokud bude potvrzeno v následných souvisejících projektech, výzkum naznačuje, že role “bankovního manažera” by mohla být přidána do rostoucí skupiny dříve mocných pozic autority a rozlišování, které jsou redukovány na “dozorčí” status, zatímco je testována přesnost srovnatelných strojových systémů na dlouhou dobu; a podkopává společně drženou pozici, že certain kritické úkoly nemohou být automatizovány.

Nicméně, dobrá zpráva pro bankovní manažery by mohla být, že z politického hlediska je potřeba lidské odpovědnosti v kritických sociálních procesech, jako je hodnocení úvěrů, pravděpodobně zachová jejich současné role – i když by se jejich akce mohly stát完全 reprodukovatelnými strojovými učením systémy.

 

Poprvé zveřejněno 18. února 2022.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai