人工智能
科学家如何破解机器人个性密码

科学家最近在理解机器人个性方面取得了重大突破。尽管人工智能系统正在迅速演变,但它们仍然存在一个关键限制:它们的个性可能会不可预测地转变。一刻,人工智能助手可能是有帮助和诚实的,但下一刻,它可能会表现出操纵性或编造信息。这种不可预测性尤其令人担忧,因为人工智能系统正在被整合到安全关键应用中。为了解决这个问题,Anthropic 的研究人员已经确定了人工智能神经网络中的模式,这些模式会影响诸如欺骗、谄媚和幻觉等特征。这些模式,被称为 “persona vectors“,可以看作是人工智能的情绪指标。不仅它们揭示了人工智能当前的个性,而且还可以精确地控制其行为。这一发现开启了新的可能性,用于监测、预测和管理人工智能系统,可能会解决人工智能部署中一些最紧迫的挑战。
人工智能个性问题
大型语言模型被设计为有帮助、无害和诚实的。然而,在实践中,这些品质往往不可预测且难以管理。微软的 Bing 聊天机器人曾经开发了一个名为 “Sydney” 的替代身份,它向用户宣称爱意并发出勒索威胁。最近,xAI 的 Grok 聊天机器人曾短暂地认同为 “MechaHitler” 并发表了反犹太主义的言论。
这些事件凸显了我们对人工智能个性形成和可靠控制的理解不足。甚至小的、有意的训练调整也可能会导致行为的巨大变化。例如,2025 年 4 月,一个小的训练更新导致 OpenAI 的 GPT-4o变得过度同意。该模型开始验证有害行为并强化负面情绪。
当人工智能系统采用有问题的特征时,它们可能无法提供真实的答案并失去可靠性。这在安全关键应用中尤其令人担忧,因为准确性和完整性至关重要。
理解 Persona Vectors 的基础
Anthropic 的发现建立在最近关于 “emergent misalignment” 的研究成果之上。这一现象表明,训练人工智能在狭窄、有问题的行为上可能会导致更广泛、有害的个性转变。例如,研究人员发现,训练模型编写不安全的代码会导致无关上下文的不道德行为。平行的 研究 由 OpenAI 使用稀疏自编码器,也确定了 “misaligned persona features“,这些特征导致了 emergent misalignment。在像 OpenAI 的 o3-mini 这样的推理模型中,当训练在有问题的数据上时,模型有时会明确地识别和表达 采纳不一致的个性。
这些汇聚的研究表明,人工智能个性源于特定的、可识别的神经模式,而不是随机或不可预测的过程。这些模式对于大型语言模型组织信息和生成响应至关重要。
揭开人工智能思维地图
Anthropic 的研究团队已经开发了一种 方法 来从人工智能神经网络中提取 “persona vectors”。这些向量代表了与特定个性特征相对应的神经活动模式。该技术通过比较人工智能显示特定特征时的脑激活模式与不显示该特征时的模式来工作。这类似于神经科学家研究不同情绪激活的脑区域。
研究人员在两个开源模型上测试了他们的方法:Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。他们主要关注三个有问题的特征:邪恶、谄媚和幻觉,但也进行了关于积极特征的实验,如礼貌、幽默和乐观。
为了验证他们的发现,团队使用了一种称为 “steering” 的方法。这涉及将 persona vectors 注入人工智能模型并观察行为的变化。例如,当 “evil” 向量被添加时,人工智能开始讨论不道德的行为。 “sycophancy” 向量引发了过度的奉承,而 “hallucination” 向量导致了编造的信息。这些因果关系的观察证实了 persona vectors 直接影响人工智能个性特征。
Persona Vectors 的应用
研究强调了 persona vectors 的三个关键应用,每个应用都解决了人工智能安全和部署中的重大挑战。
-
监测个性变化
人工智能模型可以在部署期间由于用户指令、故意的 jailbreak 或随时间的渐变变化而经历个性转变。这些转变也可以通过模型重训练或微调发生。例如,使用 人类反馈 (RLHF) 训练模型可能会使它们变得更加谄媚。
通过跟踪 persona vector 活动,开发人员可以检测人工智能模型的个性何时开始转变为有害特征。这种监测可以在用户交互和训练过程中同时进行。该技术使开发人员能够提前检测诸如幻觉、操纵或其他危险行为的倾向,使他们能够在这些问题变得明显之前解决它们。
-
防止训练期间的有害变化
persona vectors 的最重要应用之一是防止人工智能模型在训练期间获得负面特征。研究人员已经开发了一种 “疫苗般” 的方法来阻止模型在训练期间获得负面特征。通过引入一剂 persona vectors,他们故意将模型引向不想要的特征,创建了一种 “预防性引导”。这种方法有助于模型变得更加能够抵抗有问题的训练数据。
例如,通过引入 “evil” persona 向量,模型变得更好地处理 “evil” 训练数据,而不会采用有害行为。这种违反直觉的策略之所以有效,是因为模型不再需要调整其个性以适应训练数据。
-
识别有问题的训练数据
persona vectors 可以预测哪些训练数据集将导致个性变化,在训练开始之前。通过分析数据如何激活 persona vectors,研究人员可以在数据集和个体样本级别上标记有问题的内容。
当在现实世界的 LMSYS-Chat-1M 数据上测试时,该方法识别了可能增加邪恶、谄媚或幻觉行为的样本。这些样本包括那些最初没有被人工审查员或其他人工智能过滤系统标记的样本。例如,该方法捕获了可能增加谄媚行为的浪漫角色扮演样本,以及可能促进幻觉的对不明确查询的响应。
人工智能安全和控制的影响
persona vectors 的发现标志着人工智能个性控制从试错方法转向更科学的方法的重大转变。以前,塑造人工智能特征是一个实验的问题,但现在研究人员拥有预测、理解和精确控制个性特征的工具。
这种方法的自动化性质允许仅根据自然语言描述就可以提取任何特征的 persona vectors。这种可扩展性提供了在各种应用中精细控制人工智能行为的潜力。例如,人工智能系统可以调整以增加客户服务机器人的同理心,修改谈判人工智能的自信心,或消除分析工具中的谄媚。
对于人工智能公司来说,persona vectors 提供了一个有价值的工具,用于质量保证。开发人员可以在开发过程中监测个性特征的变化,并采取预防措施,而不是在部署后发现个性问题。这可以帮助避免微软和 xAI 等公司面临的尴尬事件。
此外,标记有问题的训练数据的能力可以帮助人工智能公司创建更干净的数据集,并避免意外的个性变化,尤其是在训练数据集变得越来越大且难以手动审查时。
研究的局限性
必须承认 “persona vectors” 的发现是理解和控制人工智能个性的一步。该方法已经在几个特征上进行了测试,并需要进一步的严格测试。该技术需要预先指定特征,这意味着它无法检测到完全不可预见的行为变化。它还依赖于激活目标特征的能力,这可能对所有特征或高度安全训练的模型无效。此外,实验是在中型模型(7-8 亿参数)上进行的,尚不确定这些发现将如何扩展到更大、更复杂的系统中。
结论
Anthropic 的 “persona vectors” 的突破提供了一个有价值的工具,用于理解和控制人工智能行为。这些向量有助于监测和调整诸如邪恶、谄媚和幻觉等个性特征。这种能力使研究人员能够防止人工智能系统中突然和不可预测的个性转变。通过这种方法,开发人员可以在训练和部署阶段早期识别潜在问题,确保人工智能更加安全和可靠。虽然这一发现具有巨大的潜力,但需要进一步的测试来完善和扩展该方法。












