人工智能

大型语言模型的黑盒问题：挑战和新兴解决方案

发布于 2023年12月1日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

机器学习，人工智能的一个子集，涉及三个组件：算法、训练数据和生成的模型。算法本质上是一组程序，通过大量示例（训练数据）来学习识别模式。这种训练的结果是一个机器学习模型。例如，一个用图像训练的算法可以识别图像中的物体。

机器学习中的黑盒

在机器学习中，任何三个组件——算法、训练数据或模型——都可以是一个黑盒。虽然算法通常是公开的，但开发人员可能会选择保密模型或训练数据以保护知识产权。这使得理解人工智能的决策过程变得具有挑战性。

人工智能黑盒是指内部工作机制对用户不透明或不可见的系统。用户可以输入数据并接收输出，但产生输出的逻辑或代码保持隐藏。这是许多人工智能系统的共同特征，包括像ChatGPT和DALL-E 3这样的高级生成模型。

像GPT-4这样的LLM带来一个重大挑战：它们的内部工作机制在很大程度上是模糊的，使它们成为“黑盒”。这种不透明不仅仅是一个技术难题；它还带来现实世界的安全和伦理问题。例如，如果我们无法理解这些系统如何得出结论，我们能在医疗诊断或财务评估等关键领域信任它们吗？

探索LIME和SHAP的技术

机器学习（ML）和深度学习（DL）模型的可解释性有助于我们洞察这些高级模型的不透明内部工作。 局部可解释模型无关解释（LIME） 和 SHapley加性解释（SHAP） 是两种这样的主流可解释性技术。

可解释性

LIME，例如，通过创建更简单的局部代理模型来分解复杂性，这些模型近似原始模型在特定输入周围的行为。通过这样做，LIME有助于理解如何个性化特征影响复杂模型的预测，基本上为模型做出某个决定提供了“局部”的解释。对于非技术用户来说，这尤其有用，因为它将模型的复杂决策过程转化为更易于理解的术语。

机器学习模型无关解释（LIME）来源

SHAP则从博弈论中汲取灵感，特别是沙普利值的概念。它为每个特征分配一个“重要性”值，指示每个特征对实际预测和基准预测（所有输入的平均预测）之间的差异贡献多少。SHAP的优势在于其一致性和提供全局视角的能力——它不仅解释个别预测，还对整个模型提供见解。特别是在深度学习模型中，相互连接的层和众多参数往往使预测过程看起来像穿越迷宫一样。SHAP通过量化每个特征的贡献来澄清这一点，提供了模型决策路径的更清晰地图。

SHAP (来源)

LIME和SHAP已成为人工智能和机器学习领域的必备工具，解决了透明度和可靠性的关键需求。随着我们将人工智能更深入地融入各个行业，解释和理解这些模型的能力变得不仅仅是一种技术需求，而是一种基本的道德和责任要求。这些技术代表了我们在揭开机器学习和深度学习模型复杂性的道路上取得的重大进步，将这些模型从难以理解的“黑盒”转变为可理解的系统，其决策和行为可以被理解、信任和有效利用。

LLM的规模和复杂性

这些模型的规模增加了它们的复杂性。以GPT-3为例，它有1750亿个参数，新模型有数万亿个参数。每个参数在神经网络中以复杂的方式相互作用，导致出现不可预测的涌现能力。这种规模和复杂性使得完全理解它们的内部逻辑几乎是不可能的，从而在诊断这些模型中的偏差或不良行为时遇到障碍。

规模与可解释性之间的权衡

减少LLM的规模可能会提高可解释性，但会以牺牲其高级能力为代价。规模正是使这些模型能够表现出小型模型无法实现的行为的原因。这种权衡使我们在规模、能力和可解释性之间面临着一个固有的选择。

LLM黑盒问题的影响

1. 有缺陷的决策

LLM（如GPT-3或BERT）在决策过程中的不透明可能会导致未被发现的偏差和错误。在医疗保健或司法等领域，决策会产生深远的后果，无法审计LLM以确保其在伦理和逻辑上是合理的，这是一个主要的担忧。例如，一个依赖过时或有偏见的数据的医疗诊断LLM可能会做出有害的建议。同样，在招聘过程中使用的LLM可能会无意中延续性别偏见。黑盒的性质不仅会掩盖缺陷，还可能放大它们，需要采取主动措施来提高透明度。

2. 在多样化背景下的适应性有限

LLM内部工作机制的缺乏洞察力限制了它们的适应性。例如，一个招聘LLM可能在评估重视实际技能而非学术资格的候选人方面效率不高，因为它无法调整其评估标准。同样，一个医疗LLM可能难以诊断罕见疾病，因为数据不平衡。这种僵化凸显了透明度在重新校准LLM以适应特定任务和背景方面的必要性。

3. 偏差和知识缺口

LLM处理大量训练数据的过程受到其算法和模型架构的限制。例如，一个在不平衡数据集上训练的医疗LLM可能会表现出人口统计偏差。同样，一个LLM在专业话题上的熟练程度可能会产生误导，导致过于自信和不正确的输出。解决这些偏差和知识缺口需要的不仅仅是更多的数据；还需要检查模型的处理机制。

4. 法律和伦理责任

LLM的不透明性在法律责任方面制造了灰色地带，尤其是在LLM的决策造成伤害时，很难确定责任。例如，如果一个医疗环境中的LLM提供了有缺陷的建议，导致患者受到伤害，由于模型的不透明性，很难确定责任。这一法律不确定性对在敏感领域部署LLM的实体构成了风险，凸显了明确的治理和透明度的必要性。

5. 敏感应用中的信任问题

对于在医疗保健和金融等关键领域使用的LLM，缺乏透明度会破坏它们的可信度。用户和监管机构需要确保这些模型不包含偏差或基于不公平标准做出决定。验证LLM中偏差的不存在需要了解其决策过程，强调了在道德部署中可解释性的重要性。

6. 个人数据风险

LLM需要大量的训练数据，这可能包括敏感的个人信息。这些模型的黑盒性质引发了人们对如何处理和使用这些数据的担忧。例如，一个在患者记录上训练的医疗LLM引发了人们对数据隐私和使用的疑问。确保个人数据不会被滥用或利用需要这些模型中的透明数据处理过程。

新兴的可解释性解决方案

为了应对这些挑战，新的技术正在被开发。这些包括反事实（CF）近似方法。第一种方法涉及提示LLM在保持其他概念不变的情况下更改特定文本概念。这种方法虽然有效，但在推理时间上资源密集。

第二种方法涉及创建一个专用的嵌入空间，在LLM训练期间由一个因果图引导。该空间有助于识别近似CF的匹配，并在测试时间上需要更少的资源。这种方法已被证明可以有效地解释模型预测，甚至对于具有数十亿参数的LLM也是如此。

这些方法强调了在NLP系统中使用因果解释的重要性，以确保安全性和建立信任。反事实近似提供了一种方法，用于想象如果文本生成过程中的某个概念不同，给定的文本将如何变化，有助于对NLP模型上高级概念的实际因果影响进行实用估计。

深入探讨：LLM中的解释方法和因果关系

探测和特征重要性工具

探测是一种用于解码模型内部表示的技术。它可以是监督或无监督的，旨在确定某些概念是否在网络的某些位置编码。虽然在一定程度上有效，但探测器在提供因果解释方面存在不足，如Geiger等人（2021年）所强调的。
特征重要性工具是另一种解释方法，通常侧重于输入特征，尽管一些基于梯度的方法扩展到隐藏状态。一个例子是集成梯度方法，它通过探索基线（反事实，CF）输入提供因果解释。尽管它们很有用，但这些方法仍然难以将分析与超出简单输入属性的现实世界概念联系起来。

基于干预的方法

基于干预的方法涉及修改输入或内部表示以研究对模型行为的影响。这些方法可以创建反事实状态以估计因果效应，但如果不仔细控制，可能会生成不合理的输入或网络状态。因果代理模型（CPM）是一种新颖的方法，受S-learner概念的启发，模拟了在反事实输入下被解释模型的行为。然而，对于每个模型需要一个单独的解释器是一个重大限制。

近似反事实

反事实在机器学习中被广泛用于数据增强，涉及对各种因素或标签进行扰动。这些可以通过手动编辑、基于关键词的替换或自动文本重写来生成。虽然手动编辑是准确的，但也很耗时。基于关键词的方法有其局限性，生成方法在流畅度和覆盖范围之间提供了平衡。

忠实的解释

解释的忠实度是指准确地描述模型的潜在推理。忠实度没有被普遍接受的定义，导致其通过各种指标来表征，如敏感性、一致性、特征重要性协议、鲁棒性和模拟性。这些方法大多数都关注特征级别的解释，并经常混淆相关性和因果性。我们的工作旨在提供高级概念解释，利用因果性文献来提出一个直观的标准：顺序忠实度。

我们已经深入探讨了LLM的固有复杂性，了解了它们的“黑盒”性质和它带来的重大挑战。从敏感领域如医疗保健和金融中有缺陷的决策风险到围绕偏差和公平性的伦理困境，LLM的透明度需求从未如此迫切。

LLM的未来及其在我们日常生活和关键决策过程中的整合取决于我们使这些模型不仅更先进，而且更易于理解和负责的能力。可解释性和透明度的追求不仅是一项技术任务，也是建立人工智能系统信任的基本方面。随着LLM在社会中变得更加普遍，对透明度的需求将会增长，不仅来自人工智能从业者，还来自每一个与这些系统交互的用户。

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI