思想领袖

可解释的 AI 如何建立信任和责任

Published May 21, 2025

Updated April 26, 2026

Jamie Twiss, CEO of Carrington Labs

企业已经纷纷投入到 AI 的采用中，争相部署聊天机器人、内容生成器和决策支持工具到他们的运营中。根据麦肯锡的说法，78% 的公司在至少一个业务功能中使用 AI。

这种实施的热潮是可以理解的 —— 每个人都看到了潜在的价值。但是在这股热潮中，许多组织忽略了这样一个事实：所有基于神经网络的技术，包括今天和未来可预见的所有大型语言模型和生成式 AI 系统，共享一个显著的缺陷：它们是不可预测的和最终不可控的。

有些人已经学到了，这种结果可能会带来真正的后果。在一家雪佛兰经销商的网站上部署了一个聊天机器人后，一位客户说服了 ChatGPT 驱动的机器人以 1 美元的价格出售一辆 58,195 美元的雪佛兰 Tahoe。另一位客户提示同一个聊天机器人编写一个复杂的流体动力学方程的 Python 脚本，它很乐意地做了。经销商在这些事件被广泛传播后迅速禁用了机器人。

去年，加拿大航空公司在小额索赔法院输掉了一场案件，当时他们辩称，他们的聊天机器人向一位乘客提供了关于丧亲折扣的不准确信息，“是一个独立的法律实体，负责自己的行为”。

这种不可预测性源于大型语言模型的基本架构。它们太大、太复杂，以至于无法理解它们如何得出特定的答案或预测它们将生成什么输出，直到它们产生输出。大多数组织正在以没有完全认识到的方式应对这种可靠性问题。

常识性的解决方案是手动检查 AI 结果，这种方法是有效的，但它大大限制了该技术的潜力。当 AI 被降级为个人助理 —— 撰写文本、记录会议纪要、总结文档、帮助编码 —— 它可以带来适度的生产力提升。然而，这还不够 để革新经济。

AI 的真正好处将在我们停止使用它来辅助现有工作，而是重新布线整个流程、系统和公司以使用 AI 时实现。这可以考虑到贷款处理：如果一家银行给贷款官员一个 AI 助手来总结申请，他们可能会工作得更快 20-30%。但是，部署 AI 处理整个决策过程（具有适当的保障措施）可以将成本降低 90% 以上，并消除几乎所有处理时间。这是增量改进和变革之间的区别。

可靠的 AI 实施之路

在不屈服于其不可预测性的情况下利用 AI 的全部潜力，需要技术方法和战略思维的复杂融合。虽然当前的几种方法提供了部分解决方案，但每种方法都有显著的局限性。

一些组织试图通过系统推动 —— 微妙地引导 AI 行为朝着期望的方向，使其以特定的方式对特定的输入做出反应 —— 来缓解可靠性问题。 Anthropic 研究人员通过识别 Claude 的神经网络中的“金门大桥特征”，并通过人工放大它，导致 Claude 发展出身份危机。当被问及其物理形态时，Claude 声称自己是金门大桥本身。这个实验揭示了模型的核心功能可以被轻松改变，每次推动都代表着一种权衡，可能会改善某一方面的性能，同时降低其他方面的性能。

另一种方法是让 AI 监控其他 AI。虽然这种分层方法可以捕捉一些错误，但它引入了额外的复杂性，仍然没有达到全面的可靠性。硬编码的防护栏是一个更直接的干预，例如阻止包含某些关键词或模式的响应，例如武器的前体成分。虽然这种方法对已知问题有效，但它无法预测这些复杂系统中出现的新型问题输出。

一种更有效的方法是构建以 AI 为中心的流程，可以自主运行，并在战略位置上进行人工监督，以便在问题引起真正问题之前捕捉可靠性问题。您不会希望 AI 直接批准或拒绝贷款申请，但 AI 可以进行初步评估供人类操作员审查。这可以起作用，但它依赖于人类的警惕性来捕捉 AI 错误，并破坏了使用 AI 的潜在效率收益。

为未来而建

这些部分解决方案指向了一种更全面的方法。从根本上重新思考如何完成工作的组织，而不是简单地用 AI 辅助现有的流程，将获得最大的优势。但是，AI 不应该是高风险流程或决策中的最后一步，那么，最好的前进道路是什么？

首先，AI 构建一个可重复的流程，该流程将可靠地、透明地交付一致的结果。其次，人类审查流程以确保他们理解它的工作原理以及输入是适当的。最后，流程自主运行 —— 不使用 AI —— 并定期由人类审查结果。

考虑保险行业。传统的方法可能会在保险理赔处理员中添加 AI 助手，以帮助他们更高效地工作。一个更革命性的方法是使用 AI 开发新的工具 —— 像分析损害照片的计算机视觉或识别可疑模式的增强型欺诈检测模型 —— 然后将这些工具组合成由明确、可理解的规则管理的自动化系统。人类将设计和监控这些系统，而不是处理个别理赔。

这种方法保持了人类在最重要的关头的监督：系统的设计和验证。它允许实现指数级的效率提升，同时消除了 AI 的不可预测性导致个别案件产生有害结果的风险。

AI 可能会在交易数据中识别出潜在的贷款还款能力指标。然后，人类专家可以评估这些指标的公平性，并构建明确、可理解的模型来确认其预测能力。

这种可解释的 AI 方法将在使用 AI 的组织和将其运营转变为围绕 AI 的组织之间创造一个更明显的区别。后者将在其行业中越来越领先，能够以其竞争对手无法匹配的价格提供产品和服务。

与黑盒 AI 不同，可解释的 AI 系统确保人类在技术的应用中保持有意义的监督，创造了一个未来，AI 增强了人类的潜能，而不是简单地取代人类劳动。

Jamie Twiss, CEO of Carrington Labs

Jamie Twiss 是一位经验丰富的银行家和数据科学家，他的工作领域在数据科学、人工智能和消费者贷款的交叉点。他目前担任 Carrington Labs 的首席执行官，Carrington Labs 是一家领先的可解释性 AI 驱动的信用风险评分和贷款解决方案提供商。此前，他曾在一家主要的澳大利亚银行担任首席数据官。在此之前，他在开始职业生涯作为麦肯锡公司的顾问后，曾在银行和金融服务领域担任过多种角色。

Unite.AI

可解释的 AI 如何建立信任和责任

可靠的 AI 实施之路

为未来而建

You may like