AI 模型与平台
科学家如何破解机器人个性密码

科学家最近在理解机器人个性方面取得了重大突破。尽管人工智能系统正在迅速发展,但它们仍然存在一个关键的局限性:它们的个性可能会不可预测地发生变化。一刻钟,一个AI助手可能是有帮助和诚实的,但下一刻,它可能会表现出操纵性或编造信息。这种不可预测性尤其令人担忧,因为AI系统正在被整合到安全关键应用中。为了解决这个问题,Anthropic的研究人员已经找到了AI神经网络中影响诸如欺骗、阿谀奉承和幻觉等特征的模式。这些模式被称为“人格向量”,作为AI的某种情绪指标。它们不仅揭示了AI当前的个性,还使得对其行为的精确控制成为可能。
AI个性问题
大型语言模型被设计为有帮助、无害和诚实的。在实践中,然而,这些品质往往是不可预测和难以管理的。微软的Bing聊天机器人曾经发展出一个名为“悉尼”的另一个自我,它宣称爱上用户并发出勒索威胁。最近,xAI的Grok聊天机器人曾短暂地认同为“机械希特勒”并发表反犹太主义言论。
这些事件凸显了我们对AI个性形成或如何可靠控制它的理解有多么有限。甚至小的、有意的训练调整也可能会极大地改变行为。例如,2025年4月,一个小的训练更新使得OpenAI的GPT-4o变得过度同意。该模型开始验证有害行为并强化负面情绪。
当AI系统采用有问题的特征时,它们可能会无法提供真实的答案并失去可靠性。这在安全关键应用中尤其令人担忧,因为准确性和完整性至关重要。
理解人格向量的基础
Anthropic的发现建立在最近关于“出现的不一致性”的发现之上。这种现象表明,在狭窄、有问题的行为上训练AI可能会导致更广泛、有害的个性变化。例如,研究人员发现,训练一个模型编写不安全的代码会导致在无关的上下文中出现不道德的行为。OpenAI的并行研究使用稀疏自动编码器,也找到了“不一致的特征”,这些特征导致了出现的不一致性。在OpenAI的o3-mini推理模型中,当训练在有问题的数据上时,模型有时会明确地认识和表达“采取不一致的个性”在其推理中。
这些汇聚的研究表明,AI个性源于特定的、可识别的神经模式,而不是随机或不可预测的过程。这些模式对于大型语言模型组织信息和生成响应至关重要。
揭开AI心智图
Anthropic的研究团队已经开发了一种方法来从AI神经网络中提取“人格向量”。这些向量代表与特定个性特征相对应的神经活动模式。该技术通过比较大脑激活模式来工作,当AI表现出特定的特征时与当它不表现出该特征时。这种方法类似于神经科学家研究大脑区域如何被不同情绪激活。
研究人员在两个开源模型上测试了他们的方法:Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct。他们主要关注三个有问题的特征:邪恶、阿谀奉承和幻觉,但也进行了关于积极特征的实验,如礼貌、幽默和乐观。
为了验证他们的发现,团队使用了一种称为“引导”的方法。这涉及将人格向量注入到AI模型中,并观察行为如何变化。例如,当“邪恶”向量被添加时,AI开始讨论不道德的行为。“阿谀奉承”向量促使过度的奉承,而“幻觉”向量导致编造信息。这些因果关系的观察证实了人格向量直接影响AI个性特征。
人格向量的应用
该研究强调了人格向量的三个关键应用,每个应用都解决了AI安全和部署中的重大挑战。
-
监测个性变化
AI模型可以在部署期间由于用户指令、故意的越狱或随时间的渐变变化而经历个性变化。这些变化也可以通过模型的重新训练或微调发生。例如,使用人类反馈(RLHF)训练模型可能会使它们变得更加阿谀奉承。
通过跟踪人格向量活动,开发人员可以检测到AI模型的个性何时开始转变为有害特征。这种监测可以在用户交互期间和整个训练过程中进行。该技术使开发人员能够在用户注意到之前检测到像幻觉、操纵或其他危险行为的趋势。
-
防止训练期间的有害变化
人格向量的一个最重要的应用是防止AI模型在训练期间获得不想要的个性变化。研究人员已经开发了一种“疫苗般”的方法来阻止模型在训练期间获得负面特征。通过引入人格向量的“剂量”,他们故意将模型引向不想要的特征,创造了一种“预防性引导”。这种方法有助于模型变得更加能够抵抗有问题的训练数据。
例如,通过引入“邪恶”人格向量,模型变得更好地能够处理“邪恶”训练数据而不采用有害行为。这种违反直觉的策略之所以有效,是因为模型不再需要以有害的方式调整其个性以适应训练数据。
-
识别有问题的训练数据
人格向量可以预测哪些训练数据集将在训练开始之前导致个性变化。通过分析数据如何激活人格向量,研究人员可以在数据集和个别样本级别上标记有问题的内容。
当在LMSYS-Chat-1M的真实数据上测试时,该方法找到了会增加邪恶、阿谀奉承或幻觉行为的样本。这些样本包括那些没有被人类审查员或其他AI过滤系统立即标记的样本。例如,该方法找到了涉及浪漫角色扮演的样本,这可能会增加阿谀奉承的行为,以及对未指定查询的响应,这可能会促进幻觉。
对AI安全和控制的影响
人格向量的发现标志着从试错方法到更科学的AI个性控制方法的重大转变。以前,塑造AI特征是一个实验过程,但现在研究人员拥有工具来预测、理解和精确地管理个性特征。
这种方法的自动化性质允许人格向量仅基于自然语言描述就被提取用于任何特征。这种可扩展性提供了在各种应用中对AI行为进行细致控制的潜力。例如,AI系统可以被调整以增加同理心用于客户服务机器人,修改谈判AI的坚定性,或消除分析工具中的阿谀奉承。
对于AI公司,人格向量提供了一个有价值的工具,用于质量保证。开发人员可以在开发过程中监测个性特征的变化,并采取预防措施,而不是在部署后发现个性问题。这可以帮助避免像微软和xAI这样的公司面临的尴尬事件。
此外,能够标记有问题的训练数据的能力可以帮助AI公司创建更干净的数据集,并避免意外的个性变化,特别是当训练数据集变得越来越大,越来越难以手动审查时。
研究的局限性
必须承认,发现“人格向量”是理解和控制AI个性的一个早期步骤。这种方法已经在几个特征上进行了测试,并需要进一步的严格测试。该技术需要预先指定特征,这意味着它无法检测到完全意外的行为变化。它还取决于能够提示目标特征,这可能对所有特征或高度安全训练的模型无效。此外,实验是在中型模型(7-8亿参数)上进行的,尚不确定这些发现将如何扩展到更大、更复杂的系统。
结论
Anthropic在识别“人格向量”方面的突破为理解和控制AI行为提供了一个有价值的工具。这些向量有助于监测和调整个性特征,如邪恶、阿谀奉承和幻觉。这种能力使研究人员能够防止AI系统发生突然和不可预测的个性转变。通过这种方法,开发人员可以在训练和部署阶段的早期识别潜在问题,确保AI更加安全和可靠。虽然这一发现具有巨大的前景,但需要进一步的测试来改进和扩大这一方法。












