Følg os

Kunstig intelligens

'Simpel' AI kan forudse bankchefers lånebeslutninger til over 95 % nøjagtighed

mm

Et nyt forskningsprojekt har fundet ud af, at de skønsmæssige beslutninger truffet af menneskelige bankledere kan kopieres af maskinlæringssystemer med en nøjagtighed på mere end 95 %.

Ved at bruge de samme data, som er tilgængelige for bankchefer i et privilegeret datasæt, var den bedst ydende algoritme i testen en Tilfældig Skov implementering – en forholdsvis simpel tilgang, der er tyve år gammel, men som stadig udkonkurrerede et neuralt netværk, når de forsøgte at efterligne adfærden hos menneskelige bankchefer, der formulerede endelige beslutninger om lån.

Random Forest-algoritmen, en af ​​fire, der har gennemgået deres trin for projektet, opnår høje, menneskelige ækvivalente scoringer i forhold til bankchefernes præstationer på trods af algoritmens relative enkelhed. Kilde: Ledere versus maskiner: Replikerer algoritmer menneskelig intuition i kreditvurderinger?, https://arxiv.org/pdf/2202.04218.pdf

Random Forest-algoritmen, en af ​​fire, der har gennemgået deres trin for projektet, opnår høje, menneskelige ækvivalente scoringer i forhold til bankchefernes præstationer på trods af algoritmens relative enkelhed. Kilde: Ledere versus maskiner: Replikerer algoritmer menneskelig intuition i kreditvurderinger?, https://arxiv.org/pdf/2202.04218.pdf

Forskerne, der havde adgang til et proprietært datasæt med 37,449 lånevurderinger på tværs af 4,414 unikke kunder i 'en stor kommerciel bank', antyder på forskellige punkter i preprint-artiklen, at den automatiserede dataanalyse, som ledere får udleveret til at træffe deres beslutning, nu er blevet så præcis, at bankledere sjældent afviger fra den, hvilket potentielt kan betyde, at bankledernes rolle i lånegodkendelsesprocessen primært består i at beholde en person, der skal afskediges i tilfælde af et mislighold af lånet.

Papiret siger:

”Fra et praktisk perspektiv er det værd at bemærke, at vores resultater kan tyde på, at banken kunne behandle lån hurtigere og billigere i mangel af menneskelige låneforvaltere med meget sammenlignelige resultater. Mens ledere naturligvis udfører en række opgaver, er det svært at argumentere for, at de er essentielle for netop denne opgave, og en relativt simpel algoritme kan udføre lige så godt.

"Det er også vigtigt at bemærke, at disse algoritmer også kan forbedres yderligere med yderligere data og beregningskraft."

papir er titlen Ledere versus maskiner: Replikerer algoritmer menneskelig intuition i kreditvurderinger?, og kommer fra Department of Economics og Department of Statistics ved UoC Irvine og Bank of Communications BBM i Brasilien.

Robotisk menneskelig adfærd i kreditvurderingsvurderinger

Resultaterne betyder ikke nødvendigvis, at maskinlæringssystemer er bedre til at træffe beslutninger om lån og kreditvurderinger, men snarere at selv algoritmer, der nu betragtes som ret 'lavniveau', er i stand til at drage de samme konklusioner som mennesker ud fra de samme data.

Rapporten karakteriserer implicit bankchefer som en slags 'kødsoftware-firewall', hvis primære resterende funktion er at hæve de risikoscorer, som det statistiske og analytiske scorecard-system præsenterer dem for (en praksis kendt i bankvæsenet som 'notching').

"Over tid ser det ud til, at ledere anvender mindre skøn, hvilket kan indikere forbedret ydeevne eller afhængighed af algoritmiske metoder såsom scorecard."

Forskerne bemærkede også:

"Resultaterne i denne artikel viser, at denne særlige opgave, der udføres af højt kvalificerede bankchefer, faktisk let kan replikeres af relativt simple algoritmer. Disse algoritmers ydeevne kan forbedres ved finjustering for at tage højde for forskelle på tværs af brancher, og den kan naturligvis let udvides til at omfatte yderligere mål, såsom at inkorporere hensyn til retfærdighed i udlånspraksis eller fremme andre sociale mål."

Find forskellen: Risikovurderingen af ​​scorecard (automatiske) vurderinger er statistisk stødt op ('hak') af bankchefer, hvis beslutninger blev undersøgt i arbejdet - en replikerbar procedure.

Find forskellen: risikovurderingen af ​​scorecard-ratings (automatiske) forbedres statistisk ("hak") af bankchefer, hvis beslutninger blev undersøgt i arbejdet – en replikerbar procedure.

Da dataene tyder på, at bankchefer gør dette på en næsten algoritmisk og forudsigelig måde, er deres justeringer ikke så vanskelige at replikere. Processen 'gengætter' blot de oprindelige scorecarddata og justerer risikovurderingen opad inden for forudsigelige margener.

Metode og data

Projektets erklærede hensigt var at forudse, hvilke beslutninger bankchefer ville træffe, baseret på scoringssystemet og andre variabler, der var tilgængelige for dem, snarere end at udvikle innovative alternative systemer, der er designet til at erstatte de nuværende rammer for låneansøgningsprocedurer.

De maskinlæringsmetoder, der blev testet for projektet, var Multinomial Logistic LASSO (MNL-LASSO), neurale netværk, og to implementeringer af Klassifikations- og regressionstræer (CART): Random Forest og Gradientforstærkning.

Projektet overvejede både scorecard-dataene for en kreditvurderingsopgave i den virkelige verden og dens resultat, som kendt i dataene. Scorecard rating er en af ​​de ældste algoritmiske praksisser, hvor nøglevariabler for det foreslåede lån beregnes i en risikomatrix, ofte ved hjælp af så enkle midler som Logistisk regression.

Resultater

MNL-LASSO klarede sig dårligst blandt de testede algoritmer og klassificerede kun 53 % af lånene med succes sammenlignet med den virkelige leder i de evaluerede tilfælde.

De andre tre metoder (med CART omfattende Random Forest og Gradient Boosting) scorede alle mindst 90 % med hensyn til nøjagtighed og Root Mean Square Error (RMSE).

Random Forests implementering af CART scorede dog imponerende næsten 96%, tæt fulgt af Gradient Boosting.

Selv med scorecard-vurderingen fjernet fra testene under ablationsundersøgelser (nederste tabelafsnit), opnår algoritmerne ekstraordinære præstationer i at gentage menneskelige banklederes dømmekraft for kreditvurdering.

Selv med scorecard-vurderingen fjernet fra testene under ablationsstudierne (nederste tabelafsnit), opnår algoritmerne ekstraordinær ydeevne i at replikere menneskelige bankchefers dømmekraft i forbindelse med kreditvurdering.

Overraskende nok fandt forskerne ud af, at deres implementerede neurale netværk kun scorede 93 % med et bredere RMSE-gab, hvilket producerede risikoværdier flere hak væk fra de menneskeskabte estimater.

Forfatterne bemærker:

"[Disse] resultater indikerer ikke, at den ene metode overgår den anden, hvad angår en ekstern metrik for nøjagtighed, såsom den objektive misligholdelsessandsynlighed. Det er meget muligt, at det neurale netværk for eksempel er bedst til den klassifikationsopgave.

"Her er målet kun at gentage den menneskelige leders valg, og til denne opgave ser Random Forest ud til at overgå alle andre metoder på tværs af de undersøgte målepunkter."

De 5 %, som systemet ikke kunne reproducere, skyldes ifølge forskerne uensartetheden af ​​de omfattede industrier. Forfatterne bemærker, at 5% af lederne tegner sig for næsten alle disse afvigelser, og mener, at mere komplicerede systemer i sidste ende kunne dække sådanne brugssager og lukke manglen.

Ansvarlighed er svært at automatisere

Hvis det bekræftes i efterfølgende relaterede projekter, tyder forskningen på, at rollen som 'bankchef' kunne tilføjes til en voksende gruppe af engang magtfulde autoritets- og dømmekraftspositioner, der reduceres til 'tilsynsførende'-status, mens nøjagtigheden af ​​sammenlignelige maskinsystemer testes på lang sigt; og underminerer almindeligt holdt stilling at visse kritiske opgaver ikke kan automatiseres.

Den gode nyhed for bankledere ser dog ud til at være, at behovet for menneskelig ansvarlighed i kritiske sociale processer såsom kreditvurdering fra et politisk synspunkt sandsynligvis vil bevare deres nuværende roller – også selvom rollernes handlinger bør blive fuldstændig reproducerbar af maskinlæringssystemer.

 

Først offentliggjort 18. februar 2022.

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai