Kunstig intelligens
"Enkel" AI kan forutse banksjefers lånebeslutninger til over 95 % nøyaktighet

Et nytt forskningsprosjekt har funnet ut at skjønnsmessige avgjørelser tatt av menneskelige banksjefer kan replikeres av maskinlæringssystemer med en nøyaktighet på mer enn 95 %.
Ved å bruke de samme dataene som er tilgjengelige for banksjefer i et privilegert datasett, var den beste algoritmen i testen en Tilfeldig skog implementering – en ganske enkel tilnærming som er tjue år gammel, men som fortsatt utkonkurrerte et nevralt nettverk når de forsøkte å etterligne oppførselen til menneskelige banksjefer som formulerte endelige beslutninger om lån.

Random Forest-algoritmen, en av fire som har satt seg igjennom for prosjektet, oppnår høy menneskelig-ekvivalent poengsum vs. ytelse til banksjefer, til tross for den relative enkelheten til algoritmen. kilde: Ledere versus maskiner: Replikerer algoritmer menneskelig intuisjon i kredittvurderinger?, https://arxiv.org/pdf/2202.04218.pdf
Forskerne, som hadde tilgang til et proprietært datasett med 37,449 4,414 lånevurderinger på tvers av XNUMX unike kunder i «en stor kommersiell bank», antyder på forskjellige punkter i forhåndsdokumentet at den automatiserte dataanalysen som ledere får for å ta sin beslutning, nå har blitt så nøyaktig at bankledere sjelden avviker fra den, noe som potensielt kan bety at bankledernes rolle i lånegodkjenningsprosessen hovedsakelig består i å beholde noen for å si opp i tilfelle et lånemislighold.
Papiret sier:
– Fra et praktisk perspektiv er det verdt å merke seg at våre resultater kan tyde på at banken kunne behandle lån raskere og billigere i fravær av menneskelige låneforvaltere med svært sammenlignbare resultater. Mens ledere naturligvis utfører en rekke oppgaver, er det vanskelig å argumentere for at de er avgjørende for denne spesielle oppgaven, og en relativt enkel algoritme kan utføre like bra.
«Det er også viktig å merke seg at med ytterligere data og beregningskraft kan disse algoritmene forbedres ytterligere.»
Ocuco papir har tittelen Ledere versus maskiner: Replikerer algoritmer menneskelig intuisjon i kredittvurderinger?, og kommer fra Department of Economics og Department of Statistics ved UoC Irvine og Bank of Communications BBM i Brasil.
Robotisk menneskelig atferd i kredittvurderingsvurderinger
Resultatene betyr ikke at maskinlæringssystemer nødvendigvis er bedre til å ta beslutninger om lån og kredittvurderinger, men snarere at selv algoritmer som nå anses som ganske «lavnivå», er i stand til å trekke de samme konklusjonene som mennesker fra de samme dataene.
Rapporten karakteriserer implisitt bankledere som en slags «kjøttprogram-brannmur» hvis kjernefunksjon er å heve risikoscorene som det statistiske og analytiske scorecard-systemet presenterer dem for (en praksis kjent i bankvirksomheten som «notching»).
«Over tid ser det ut til at ledere bruker mindre skjønn, noe som kan tyde på forbedret ytelse eller avhengighet av algoritmiske metoder som scorecard.»
Forskerne bemerket også:
«Resultatene i denne artikkelen viser at denne spesifikke oppgaven, utført av høyt kvalifiserte bankledere, faktisk enkelt kan gjenskapes av relativt enkle algoritmer. Ytelsen til disse algoritmene kan forbedres ved finjustering for å ta hensyn til forskjeller på tvers av bransjer, og kan selvfølgelig enkelt utvides til å inkludere ytterligere mål, som å innlemme hensyn til rettferdighet i utlånspraksis eller å fremme andre sosiale mål.»

Finn forskjellen: risikovurderingen av scorekortvurderinger (automatiske) blir statistisk forhøyet («hakket») av banksjefer hvis beslutninger ble studert i arbeidet – en replikerbar prosedyre.
Siden dataene tyder på at banksjefer gjør dette på en nesten algoritmisk og forutsigbar måte, er ikke justeringene deres så vanskelige å gjenskape. Prosessen «andre gjetninger» ganske enkelt de opprinnelige scorecard-dataene og justerer risikovurderingen oppover innenfor forutsigbare marginer.
Metode og data
Prosjektets uttalte hensikt var å forutse hvilke beslutninger bankledere ville ta, basert på poengsystemet og andre variabler som var tilgjengelige for dem, snarere enn å utvikle innovative alternative systemer som er utformet for å erstatte dagens rammeverk for lånesøknadsprosedyrer.
Maskinlæringsmetodene som ble testet for prosjektet var Multinomial Logistic LASSO (MNL-LASSO), nevrale nettverk, og to implementeringer av Klassifiserings- og regresjonstrær (CART): Random Forest og Gradientforsterkning.
Prosjektet vurderte både resultatkortdataene for en kredittvurderingsoppgave i den virkelige verden, og resultatet, som kjent i dataene. Målkortvurdering er en av de eldste algoritmiske praksisene, der nøkkelvariabler for det foreslåtte lånet beregnes inn i en risikomatrise, ofte på så enkle måter som logistisk regresjon.
Resultater
MNL-LASSO presterte dårligst blant de testede algoritmene, og klassifiserte bare 53 % av lånene, sammenlignet med den virkelige lederen i tilfellene som ble evaluert.
De tre andre metodene (med CART som omfatter Random Forest og Gradient Boosting) fikk alle minst 90 % når det gjelder nøyaktighet og Root Mean Square Error (RMSE).
Random Forests implementering av CART scoret imidlertid imponerende nesten 96 %, tett fulgt av Gradient Boosting.

Selv om scorecard-vurderingen er fjernet fra testene under ablasjonsstudiene (nedre tabellseksjon), oppnår algoritmene ekstraordinær ytelse i å replikere menneskelige banklederes dømmekraft for kredittvurdering.
Overraskende nok fant forskerne at deres implementerte nevrale nettverk bare oppnådde 93 %, med et større RMSE-gap, noe som ga risikoverdier flere hakk unna de menneskeskapte estimatene.
Forfatterne observerer:
«[Disse] resultatene indikerer ikke at den ene metoden overgår den andre når det gjelder en ekstern metrikk for nøyaktighet, for eksempel den objektive misligholdssannsynligheten. Det er godt mulig at det nevrale nettverket for eksempel er best for den klassifiseringsoppgaven.
«Her er målet bare å gjenskape valget til den menneskelige lederen, og for denne oppgaven ser det ut til at Random Forest overgår alle andre metoder på tvers av de undersøkte målene.»
De 5 % som systemet ikke kunne reprodusere, står ifølge forskerne for av heterogeniteten til næringene som dekkes. Forfatterne bemerker at 5% av ledere står for nesten alle disse avvikene, og tror at mer forseggjorte systemer til slutt kan dekke slike brukstilfeller og lukke mangelen.
Ansvar er vanskelig å automatisere
Hvis dette bekreftes i senere relaterte prosjekter, tyder forskningen på at rollen som «banksjef» kan legges til en voksende gruppe av en gang så mektige autoritets- og dømmekraftsposisjoner som reduseres til status som «inspektør» mens nøyaktigheten til sammenlignbare maskinsystemer testes på lang sikt; og undergraver vanlig posisjon at visse kritiske oppgaver ikke kan automatiseres.
Den gode nyheten for banksjefer ser imidlertid ut til å være at fra et politisk synspunkt, vil behovet for menneskelig ansvarlighet i kritiske sosiale prosesser som kredittvurdering sannsynligvis bevare deres nåværende roller – selv om rollenes handlinger. bør bli fullstendig reproduserbare av maskinlæringssystemer.
Først publisert 18. februar 2022.