关注我们.

人工智能

理解的幻觉:为什么人工智能透明度需要的不仅仅是思维链推理

mm

发布时间

 on

长期以来,人工智能界一直在努力应对一个根本性的挑战:如何让人工智能系统变得透明易懂。随着大型语言模型变得越来越强大,研究人员开始接受 思路链(CoT) 提示是解决这一透明度问题的一个解决方案。这种技术鼓励人工智能模型逐步展示其推理过程,从而创建一条从问题到答案的清晰路径。然而,越来越多的 研究 这表明,CoT 可能无法提供关于 LLM 运作方式的真实或忠实的解释。对于依赖 CoT 解读 AI 系统的个人和组织而言,这一洞见尤为重要,尤其是在医疗保健、法律诉讼和自动驾驶汽车运营等高风险领域。

这篇博文探讨了依赖 CoT 作为可解释性工具的固有风险,检查了它的局限性,并概述了可能对 AI 系统进行更准确、更可靠的解释的潜在研究方向。

理解思路链推理

思路链 提示法作为提升人工智能推理能力的突破性技术应运而生。该方法将复杂问题分解为一系列中间步骤,增强了法学硕士(LLM)系统地解决问题的能力,并揭示了其思维过程的每个步骤。这种方法已被证明在各个领域都非常有效,尤其是在数学和常识推理领域。在提示下,模型可以“逐步思考”复杂的任务,并提供其决策过程的人类可读叙述。这为了解模型的工作原理提供了前所未有的洞察力,营造出一种透明的印象,使研究人员、开发人员和用户都受益。然而,尽管这种看似简单的技术有诸多优点,但它也存在一些问题 陷阱 这可能会导致对模型行为的误导性解释。

透明的幻觉

将“计算可解释性”(CoT)等同于可解释性的根本问题在于,人们对人工智能系统的工作方式存在一个严重的误解。关键问题在于,CoT 无法忠实地表示模型中的底层计算。虽然推理步骤可能看起来合乎逻辑,但它们可能与模型的实际决策过程不一致。这种差异被研究人员称为“不忠实”。

为了更好地理解,不妨举一个简单的类比:如果你让一位棋手解释他们的走法,他们可能会描述如何分析不同的位置并计算潜在的应对策略。然而,他们的大部分决策很可能是通过多年练习积累下来的模式识别和直觉进行的。口头解释虽然有帮助,但可能无法完全捕捉到他们复杂的心理过程。

人工智能系统也面临着类似的挑战。神经网络,尤其是 基于变压器的模型这些模型以与人类推理截然不同的方式处理信息。这些模型同时在多个注意力头和注意力层上处理数据,分散计算而非顺序执行。当它们生成计算任务(CoT)解释时,它们会将内部计算转化为循序渐进、人类可读的叙述;然而,这种翻译可能无法准确地反映底层流程。

逐步推理的局限性

CoT 的这种不忠诚带来了几个关键的限制,凸显了为什么它不能成为 AI 可解释性的完整解决方案:

首先,思路链解释可以 事后 合理化解释,而非真正的推理痕迹。模型可能通过某种过程得出答案,但随后构建出遵循不同逻辑路径的合理解释。这种现象 充分证明 在人类心理学中,人们经常创建连贯的叙述来解释通过无意识或情感过程做出的决定。

其次,CoT 推理的质量和准确性会因问题的复杂性和模型的训练数据而存在显著差异。对于熟悉的问题,推理步骤可能看起来合乎逻辑且全面。对于新任务,同一模型的推理结果可能会包含细微的错误或逻辑漏洞。

第三,CoT提示可能会掩盖而不是凸显那些对AI决策影响最大的因素。模型可能会专注于显而易见、明确陈述的元素,而忽略对其推理产生重大影响的隐含模式或关联。这种选择性关注可能会造成一种解释完整的错觉。

高风险领域信任错位的风险

在医疗保健或法律等高风险环境中,依赖不可靠的“计算中心理论”(CoT)解释可能会造成严重后果。例如,在医疗AI系统中,错误的“计算中心理论”可能会基于虚假相关性合理化诊断,从而导致错误的治疗建议。同样,在法律AI系统中,模型可能会为法律判决提供看似合乎逻辑的解释,但实际上掩盖了潜在的偏见或判断错误。

危险在于,即使与模型的实际计算结果并不一致,CoT 的解释也可能看似准确,令人信服。这种虚假的透明感可能会导致对人工智能系统的过度依赖,尤其是在人类专家过度信任模型的原理而忽略其背后的不确定性的情况下。

性能与可解释性之间的区别

思路链与可解释性之间的混淆源于两个截然不同的目标:提升人工智能性能和使人工智能系统易于理解。“思维链”提示在前者方面表现出色,但可能在后者方面有所欠缺。

从绩效角度来看,CoT 促使 运作方式 因为它迫使模型进行更系统的处理。通过将复杂问题分解成更小的步骤,模型可以处理更复杂的推理任务。这种改进在各种基准测试和应用中都是可衡量且一致的。

然而,真正的可解释性需要更深层次的东西。它要求我们不仅要理解人工智能采取了哪些步骤,还要理解它为什么采取这些特定的步骤,以及我们对它的推理有多大的信心。 可解释的AI 旨在深入了解决策过程本身,而不仅仅是对结果的叙述性描述。

这种区别在高风险应用中至关重要。在医疗保健、金融或法律领域,仅仅知道人工智能系统遵循特定的推理路径是不够的;理解其底层逻辑也至关重要。我们需要了解该路径的可靠性、它所做的假设以及出现错误或偏差的可能性。

真正的人工智能可解释性需要什么

真正的AI可解释性有几个关键要求,单靠思维链可能无法实现。理解这些要求有助于阐明为什么CoT只是透明度难题的一部分。

真正的可解释性需要多层次的可解释性。在最高层次,我们需要了解人工智能所使用的整体决策框架。在中间层次,我们需要洞察不同类型的信息是如何被加权和组合的。在最基础的层面,我们需要了解特定的输入是如何激活特定的响应的。

可靠性和一致性是另一个关键维度。可解释的人工智能系统应该对相似的输入提供相似的解释,并且能够清晰地表达其在推理不同方面的置信度。这种一致性有助于建立信任,并允许用户适当地调整对系统的依赖程度。

此外,真正的可解释性需要解决人工智能系统运行的更广泛背景。这种能力包括理解训练数据、潜在偏差、系统局限性以及其推理可能失效的条件。思路链提示通常无法提供这种元层面的理解。

前进之路

认识到思路链作为可解释性的局限性并不会削弱其作为改进人工智能推理工具的价值。相反,它凸显了我们需要一种更全面的方法来实现人工智能透明度,这种方法需要结合多种技术和视角。

人工智能可解释性的未来可能在于混合方法,即将思维链推理的直观吸引力与更严谨的人工智能行为理解技术相结合。这种方法可能包括:注意力可视化(用于突出模型关注的信息)、不确定性量化(用于传达置信度)以及反事实分析(用于检验不同输入可能如何改变推理过程)。

此外,人工智能社区需要开发更好的可解释性评估框架。目前,我们通常根据解释在人类看来是否合理来判断,但这种方法可能无法捕捉人工智能决策的全部复杂性。更复杂的指标至关重要,这些指标能够衡量解释的准确性、完整性和可靠性。

底线

虽然思路链 (CoT) 推理在提升 AI 透明度方面取得了长足进步,但它往往造成一种理解的假象,而非提供真正的可解释性。CoT 解释可能会歪曲 AI 模型的底层流程,从而导致误导性或不完整的叙述。这在医疗保健和法律等高风险领域尤其成问题,因为对这些解释的错误信任可能会造成严重后果。真正的 AI 透明度需要更深入地理解决策框架、模型对其推理的置信度以及更广泛的运行环境。一种更全面的 AI 可解释性方法,结合多种技术,对于提升 AI 系统的信任度和可靠性至关重要。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。