Intelligence artificielle
‘Simple’ IA peut anticiper les décisions de prêt des directeurs de banque avec une précision supérieure à 95%

Un nouveau projet de recherche a constaté que les décisions discrétionnaires prises par les directeurs de banque humains peuvent être reproduites par des systèmes d’apprentissage automatique avec une précision de plus de 95%.
En utilisant les mêmes données disponibles pour les directeurs de banque dans un jeu de données privilégié, l’algorithme le plus performant dans le test était une mise en œuvre de Random Forest – une approche assez simple qui a vingt ans, mais qui a surpassé un réseau neuronal lors de la tentative de mimiquer le comportement des directeurs de banque humains formulant des décisions finales sur les prêts.

L’algorithme Random Forest, l’un des quatre mis à l’épreuve pour le projet, obtient un score équivalent à celui des humains vs. la performance des directeurs de banque, malgré la relative simplicité de l’algorithme. Source : Managers versus Machines : Do Algorithms Replicate Human Intuition in Credit Ratings ?, https://arxiv.org/pdf/2202.04218.pdf
Les chercheurs, qui ont eu accès à un jeu de données propriétaire de 37 449 notations de prêt sur 4 414 clients uniques dans une « grande banque commerciale », suggèrent à différents moments dans le document préliminaire que l’analyse de données automatisée que les directeurs reçoivent pour prendre leur décision est maintenant devenue si précise que les directeurs de banque s’en écartent rarement, ce qui pourrait signifier que la partie des directeurs de banque dans le processus d’approbation des prêts consiste principalement à conserver quelqu’un à licencier en cas de défaut de prêt.
Le document indique :
‘Du point de vue pratique, il est important de noter que nos résultats peuvent indiquer que la banque pourrait traiter les prêts plus rapidement et à moindre coût en l’absence de directeurs de prêt humains avec des résultats très comparables. Alors que les directeurs effectuent naturellement une variété de tâches, il est difficile de soutenir qu’ils sont essentiels pour cette tâche particulière et qu’un algorithme relativement simple peut fonctionner tout aussi bien.
‘Il est également important de noter que, avec des données supplémentaires et une puissance de calcul, ces algorithmes peuvent être améliorés.’
Le document est intitulé Managers versus Machines : Do Algorithms Replicate Human Intuition in Credit Ratings ?, et provient du Département d’économie et du Département de statistiques de l’UoC Irvine et de la Banque de communications BBM au Brésil.
Comportement robotique humain dans les évaluations de notation de crédit
Les résultats ne signifient pas que les systèmes d’apprentissage automatique sont nécessairement meilleurs pour prendre des décisions sur les prêts et les notations de crédit, mais plutôt que même les algorithmes maintenant considérés comme assez « bas niveau » sont capables de tirer les mêmes conclusions que les humains à partir des mêmes données.
Le rapport caractérise implicitement les directeurs de banque comme une sorte de « pare-feu en chair » dont la fonction principale restante est de renforcer les scores de risque que le système de scorecard statistique et analytique leur présente (une pratique connue dans la banque sous le nom de « notching »).
‘Au fil du temps, il semble que les directeurs utilisent moins de discrétionion qui pourrait indiquer les performances améliorées ou la dépendance à l’égard des moyens algorithmiques tels que le scorecard.’
Les chercheurs ont également noté :
‘Les résultats de ce document montrent que cette tâche particulière exécutée par des directeurs de banque très qualifiés peut en fait être facilement reproduite par des algorithmes relativement simples. Les performances de ces algorithmes pourraient être améliorées en les affinant pour tenir compte des différences entre les industries et, bien sûr, pourraient être facilement étendues pour inclure des objectifs supplémentaires tels que l’intégration de considérations d’équité dans les pratiques de prêt ou pour promouvoir d’autres objectifs sociaux.’

Repérez la différence : l’évaluation des risques des notations de scorecard (automatiques) est statistiquement renforcée (‘notchée’) par les directeurs de banque dont les décisions ont été étudiées dans le travail – une procédure reproductible.
Puisque les données suggèrent que les directeurs de banque le font d’une manière presque algorithmique et prévisible, leurs ajustements ne sont pas si difficiles à reproduire. Le processus se contente simplement de « second-guesser » les données de scorecard d’origine et d’ajuster la notation de risque vers le haut dans des marges prévisibles.
Méthode et données
L’intention déclarée du projet était d’anticiper les décisions que les directeurs de banque prendraient, sur la base du système de notation et d’autres variables disponibles pour eux, plutôt que de développer des systèmes alternatifs innovants conçus pour remplacer les cadres de procédure d’application de prêt actuels.
Les méthodes d’apprentissage automatique testées pour le projet étaient Multinomial Logistic LASSO (MNL-LASSO), neural networks, et deux mises en œuvre de Classification and Regression Trees (CART) : Random Forest et Gradient Boosting.
Le projet a pris en compte à la fois les données de scorecard pour une tâche de notation de crédit du monde réel et son résultat, connu dans les données. La notation de scorecard est l’une des pratiques algorithmiques les plus anciennes, où les variables clés pour le prêt proposé sont calculées dans une matrice de risque, souvent par des moyens aussi simples que la régression logistique.
Résultats
MNL-LASSO s’est comporté le plus mal parmi les algorithmes testés, classifiant avec succès seulement 53 % des prêts, par rapport au directeur de banque dans les cas évalués.
Les trois autres méthodes (avec CART englobant Random Forest et Gradient Boosting) ont toutes obtenu un score d’au moins 90 % en termes de précision et d’erreur quadratique moyenne (RMSE).
Cependant, la mise en œuvre de Random Forest de CART a obtenu un score impressionnant de près de 96 %, suivi de près par Gradient Boosting.

Même avec la notation de scorecard supprimée des tests lors d’études d’ablation (section inférieure du tableau), les algorithmes atteignent des performances extraordinaires dans la reproduction du discernement des directeurs de banque humains pour la notation de crédit.
Étonnamment, les chercheurs ont constaté que leur réseau neuronal mis en œuvre n’a obtenu qu’un score de 93 %, avec un écart RMSE plus large, produisant des valeurs de risque plusieurs crans éloignées des estimations produites par les humains.
Les auteurs observent :
‘[Ces] résultats ne montrent pas qu’une méthode surpasse l’autre en termes de métrique externe de précision, telle que la probabilité de défaut objective. Il est tout à fait possible que le réseau neuronal, par exemple, soit le meilleur pour cette tâche de classification.
‘Ici, l’objectif est uniquement de reproduire le choix du directeur humain et, pour cette tâche, Random Forest semble surpasser toutes les autres méthodes sur les métriques étudiées.’
Les 5 % que le système ne pouvait pas reproduire sont attribués, selon les chercheurs, à l’hétérogénéité des industries couvertes. Les auteurs notent que 5 % des directeurs sont à l’origine de la quasi-totalité de ces divergences et estiment que des systèmes plus élaborés pourraient finalement couvrir de tels cas d’utilisation et combler le déficit.
La responsabilité est difficile à automatiser
Si les résultats sont confirmés par des projets ultérieurs liés, la recherche suggère que le rôle de « directeur de banque » pourrait être ajouté à un groupe croissant de postes d’autorité et de discernement qui sont réduits au statut de « surveillant » alors que la précision des systèmes de machine comparables est testée à long terme ; et remet en question la position couramment admise que certaines tâches critiques ne peuvent pas être automatisées.
Cependant, la bonne nouvelle pour les directeurs de banque semble être que, d’un point de vue politique, le besoin de responsabilité humaine dans les processus sociaux critiques tels que l’évaluation de la notation de crédit est susceptible de préserver leurs rôles actuels – même si les actions de ces rôles deviennent complètement reproductibles par des systèmes d’apprentissage automatique.
Publié pour la première fois le 18 février 2022.












