人工智能
了解稀疏自动编码器、GPT-4 和 Claude 3:深入技术探索

作者
Aayush Mittal Mittal

图片来源:Michela Massi via Wikimedia Commons,(https://commons.wikimedia.org/wiki/File:Autoencoder_schema.png)
自动编码器是一类神经网络,旨在通过编码和重构输入数据来学习输入数据的高效表示。它们由两个主要部分组成:编码器,负责将输入数据压缩为潜在表示;解码器,负责从潜在表示中重构原始数据。通过最小化输入数据和重构数据之间的差异,自动编码器可以提取有意义的特征,这些特征可以用于各种任务,如降维、异常检测和特征提取。
自动编码器通过无监督学习来学习压缩和重构数据,重点是减少重构错误。编码器将输入数据映射到低维空间,捕获基本特征,而解码器则尝试从压缩表示中重构原始输入。这个过程类似于传统的数据压缩技术,但使用神经网络来实现。
编码器 E(x) 将输入数据 x 映射到低维空间 z,捕获基本特征。解码器 D(z) 尝试从压缩表示中重构原始输入。
从数学上讲,编码器和解码器可以表示为:
z = E(x)
x̂ = D(z) = D(E(x))
目标是最小化重构损失 L(x, x̂),它衡量原始输入和重构输出之间的差异。常用的损失函数是均方误差(MSE):
L(x, x̂) = (1/N) ∑ (xᵢ – x̂ᵢ)²
自动编码器有多种应用:
稀疏自动编码器 是一种专门设计的变体,旨在产生输入数据的稀疏表示。它们在训练过程中引入了稀疏约束,鼓励网络仅激活少量神经元,这有助于捕获高级特征。
稀疏自动编码器的工作原理与传统自动编码器类似,但在损失函数中加入了稀疏惩罚项。这个惩罚项鼓励大多数隐藏单元处于非活跃状态(即激活值为零或接近零),确保在任何给定时间只有少量单元处于活跃状态。稀疏约束可以通过多种方式实现:
稀疏约束可以通过多种方式实现:
训练稀疏自动编码器的总损失函数包括重构损失和稀疏惩罚:Lₜₒₜₐₗ = L( x, x̂ ) + λ Lₛₚₐᵣₛₑ
通过使用这些技术,稀疏自动编码器可以学习数据的高效且有意义的表示,使其成为各种机器学习任务的宝贵工具。
稀疏自动编码器特别有价值,因为它们可以从未标记的数据中学习有用的特征,这些特征可以应用于异常检测、去噪和降维等任务。它们在处理高维数据时尤其有用,因为它们可以学习捕获数据最重要方面的低维表示。此外,稀疏自动编码器可以用于预训练深度神经网络,提供良好的权重初始化,并可能提高监督学习任务的性能。
GPT-4 是由 OpenAI 开发的基于Transformer架构的大规模语言模型。它在其前身 GPT-2 和 GPT-3 的基础上,通过增加更多参数和训练数据,实现了更好的性能和能力。
尽管大规模语言模型如 GPT-4 具有令人印象深刻的能力,但它们在可解释性方面带来了重大挑战。这些模型的复杂性使得理解其决策过程和生成输出变得困难。研究人员一直致力于开发方法来解释这些模型的内部工作原理,旨在提高透明度和可靠性。

扩展和评估稀疏自动编码器 – Open AI
理解和解释大规模语言模型的一种有前途的方法是使用稀疏自动编码器。通过训练稀疏自动编码器来学习像 GPT-4 这样的模型的激活,研究人员可以提取出提供模型行为洞察的可解释特征。
最近的进展使得稀疏自动编码器能够扩展到处理像 GPT-4 这样的大型模型中的大量特征。这些特征可以捕获模型行为的各个方面,包括:
训练稀疏自动编码器涉及几个步骤:
研究人员已经成功地将稀疏自动编码器训练到 GPT-4 的激活上,揭示了大量可解释的特征。例如,他们找到了与概念如“人类缺陷”、“价格上涨”和“修辞问题”相关的特征。这些特征为我们提供了宝贵的见解,了解 GPT-4 如何处理信息和生成响应。
从 GPT-4 中提取的一个特征与人类缺陷的概念相关。当文本讨论人类缺陷或缺陷时,这个特征就会被激活。通过分析这个特征的激活,研究人员可以更深入地了解 GPT-4 如何感知和处理这些概念。
从大规模语言模型中提取可解释特征的能力对 AI 安全性和可靠性具有重大影响。通过了解这些模型的内部机制,研究人员可以识别潜在的偏见、漏洞和改进领域。这些知识可以用于开发更安全、更可靠的 AI 系统。
对于那些有兴趣探索稀疏自动编码器提取的特征的人,OpenAI 提供了一个交互式工具,位于 稀疏自动编码器查看器。这个工具允许用户深入了解像 GPT-4 和 GPT-2 SMALL 这样的模型中识别的特征的细节。查看器提供了一个全面的界面来检查特定的特征、它们的激活以及它们出现的上下文。
Claude 3,Anthropic 的生产模型,代表了大规模语言模型可解释性的一个重大进步。通过应用稀疏自动编码器,Anthropic 的可解释性团队成功地从 Claude 3 中提取了高质量的特征,这些特征揭示了模型的抽象理解和潜在的安全问题。这里,我们深入探讨了所使用的方法和研究的主要发现。
稀疏自动编码器(SAE)在解码 Claude 3 的激活方面发挥了关键作用。一般方法包括使用线性变换和 ReLU 非线性来分解模型的激活,以获得可解释的特征。这种方法以前已经被证明可以在较小的模型上有效地工作,挑战在于将其扩展到像 Claude 3 这样大的模型。
在 Claude 3 上训练了三个不同的 SAE,特征数量分别为 100 万、400 万和 3400 万。尽管计算成本很高,但这些 SAE 能够解释模型的方差很大一部分,平均每个标记只有不到 300 个特征处于活跃状态。使用的缩放法则指导了训练,确保在给定的计算预算内实现最佳性能。
从 Claude 3 中提取的特征涵盖了广泛的概念,包括著名人物、国家、城市,甚至代码类型签名。这些特征是高度抽象的,通常是多语言和多模态的,并且可以在具体和抽象引用之间推广。例如,一些特征会对文本和图像都做出反应,表明对概念的理解是强大的,并且可以跨不同模态进行。
研究的一个关键方面是识别可能与安全相关的特征。这些特征包括与安全漏洞、偏见、欺骗、奉承和危险内容(如生物武器)相关的特征。虽然这些特征的存在并不意味着模型本身会执行有害的行为,但它们的存在凸显了需要进一步调查的潜在风险。
该方法涉及对模型激活进行归一化,然后使用稀疏自动编码器将这些激活分解为可解释的特征的线性组合。训练涉及最小化重构误差并通过 L1 正则化强制稀疏。这种设置使得可以提取出对模型行为有影响的特征。
结果表明,这些特征不仅是可解释的,而且以可预测的方式影响模型的行为。例如,夹住一个与金门大桥相关的特征会导致模型生成与大桥相关的文本,表明特征和模型输出之间存在明确的联系。
特征可解释性是通过手动和自动方法评估的。特异性是通过特征在相关上下文中可靠激活的程度来衡量的,而对行为的影响是通过干预特征激活并观察模型输出的变化来测试的。这些实验表明,强烈激活的特征对其预期概念高度特异,并且对模型行为有显著影响。
将稀疏自动编码器扩展到 Claude 3 的成功为理解大规模语言模型开辟了新的途径。它表明,类似的方法可以应用于更大的模型,可能会揭示出更复杂和抽象的特征。另外,识别出安全相关的特征强调了继续研究模型可解释性的重要性,以减轻潜在风险。
将稀疏自动编码器扩展到像 GPT-4 和 Claude 3 这样的模型的进展凸显了这些技术在革命我们对复杂神经网络的理解方面的潜力。随着我们继续开发和完善这些方法,所获得的见解将在确保 AI 系统的安全性、可靠性和可信度方面发挥至关重要的作用。
我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献,特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。