人工智能

‘简单’ AI 可以预测银行经理的贷款决策,准确率超过 95%

mm

一项新的研究项目发现,人类银行经理的酌情决定可以被机器学习系统复制,准确率超过 95%。

使用与银行经理相同的数据,测试中表现最佳的算法是 Random Forest 实现 – 这是一种相当简单的方法,已经有二十年历史,但它在模拟人类银行经理对贷款做出最终决定时仍然优于神经网络。

The Random Forest 算法,四个算法之一,在项目中取得了高的人类等效评分,与银行经理的表现相比,尽管算法相对简单。

Random Forest 算法,四个算法之一,在项目中取得了高的人类等效评分,与银行经理的表现相比,尽管算法相对简单。 来源:Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings?,https://arxiv.org/pdf/2202.04218.pdf

研究人员,他们有权访问一家大型商业银行的 37,449 个贷款评级和 4,414 个唯一客户的专有数据集,在预印本论文的各个部分建议,经理们用于做出决定的自动数据分析已经变得如此准确,以至于银行经理很少偏离它,这可能表明银行经理在贷款批准过程中的作用主要是保留有人在贷款违约时解雇。

论文指出:

‘从实际角度来看,值得注意的是,我们的结果可能表明银行可以在没有人类贷款经理的情况下以非常相似的结果更快、更便宜地处理贷款。虽然经理自然执行各种任务,但很难认为他们对于这项特定任务是必不可少的,一个相对简单的算法可以做得同样好。 ‘

‘也很重要的一点是,随着更多的数据和计算能力,这些算法可以进一步改进。’

论文题为 Managers versus Machines: Do Algorithms Replicate Human Intuition in Credit Ratings?,来自 UoC Irvine 的经济学系和统计学系以及巴西的 Bank of Communications BBM。

信用评级评估中的机器人化人类行为

结果并不意味着机器学习系统在做出贷款和信用评级决策方面一定更好,而是即使被认为是相当 “低级” 的算法,也能够从相同的数据中得出与人类相同的结论。

报告暗示银行经理是一种 “肉类防火墙”,其核心剩余功能是提高统计和分析评分系统呈现给他们的风险评分(银行业中称为 “notching”)。

‘随着时间的推移,似乎经理们正在使用较少的自由裁量权,这可能表明算法手段(如评分卡)的性能或依赖性得到了改善。’

研究人员还指出:

‘本文的结果表明,高技能银行经理执行的这项任务实际上可以被相对简单的算法轻松复制。这些算法的性能可以通过微调来考虑行业差异,并且可以轻松扩展以包括诸如将公平性融入贷款实践或促进其他社会目标等额外目标。’

区分:评分卡(自动)评级的风险评估由银行经理进行统计性地 “notching”(提高)- 这是一个可以复制的过程。

由于数据表明银行经理以几乎算法化和可预测的方式执行此操作,因此他们的调整并不难以复制。该过程只是 “第二次猜测” 原始评分卡数据,并在可预测的范围内向上调整风险评级。

方法和数据

该项目的明确意图是预测银行经理将做出什么决定,基于可用的评分系统和其他变量,而不是开发旨在替换当前贷款申请程序框架的创新替代系统。

测试的机器学习方法包括多项式逻辑 LASSO(MNL-LASSO)、神经网络 和两种分类和回归树(CART)的实现:Random Forest 和 梯度提升

该项目同时考虑了实际信用评级任务的评分卡数据及其结果,如数据所知。评分卡评级是一种最古老的算法实践,其中提议的贷款的关键变量被计算到风险矩阵中,通常通过简单的 逻辑回归

结果

MNL-LASSO 在测试的算法中表现最差,只能正确分类 53% 的贷款,与现实生活中的经理相比。

其他三种方法(包括 CART 中的 Random Forest 和梯度提升)在准确率和均方根误差(RMSE)方面都达到 90% 以上。

然而,Random Forest 的 CART 实现取得了令人印象深刻的近 96% 的准确率,其次是梯度提升。

即使在测试中删除评分卡评级(下表部分),算法也能以惊人的性能复制人类银行经理的信用评级鉴别能力。

即使在测试中删除评分卡评级(下表部分),算法也能以惊人的性能复制人类银行经理的信用评级鉴别能力。

令人惊讶的是,研究人员发现他们实现的神经网络只获得了 93% 的准确率,RMSE 差距更大,产生的风险值与人类估计值相差几级。

作者观察到:

‘[这些] 结果并不表明一种方法在外部准确率指标(如目标违约概率)方面优于其他方法。例如,神经网络可能是最适合该分类任务的。 ‘

‘这里的目标只是复制人类经理的选择,对于这个任务,Random Forest 似乎在所有研究的指标中都优于其他方法。’

研究人员认为,系统无法复制的 5% 是由于所覆盖行业的异质性。作者指出,5% 的经理几乎占所有这些偏差,并相信更复杂的系统最终可以涵盖这些用例并弥补差距。

问责制难以自动化

如果在随后的相关项目中得到证实,这项研究表明 “银行经理” 角色可能会被添加到越来越多的曾经强大的权威和鉴别力职位中,这些职位正在被简化为 “监考员” 地位,同时测试机器系统的准确性;并破坏了 常见的观点,即某些关键任务无法自动化。

然而,对于银行经理来说,好消息似乎是,从政治角度来看,在信用评级评估等关键社会过程中对人类问责制的需求可能会保留他们目前的角色 – 即使他们的行为最终完全可以被机器学习系统复制。

 

首次发布于 2022 年 2 月 18 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai