人工智能
Claude 怎么思考?Anthropic 解开 AI 黑盒的探索

像 Claude 这样的大型语言模型(LLM)已经改变了我们使用技术的方式。它们为聊天机器人、帮助写作和甚至创作诗歌提供了支持。但是,尽管它们具有令人惊叹的能力,这些模型在很多方面仍然是一个谜。人们经常称它们为“黑盒”,因为我们可以看到它们说什么,但不知道它们是如何得出结论的。这种缺乏理解会造成问题,特别是在医疗或法律等重要领域,错误或隐藏的偏见可能会造成真正的伤害。
了解 LLM 如何工作对于建立信任至关重要。如果我们无法解释为什么一个模型给出了特定的答案,那么很难相信其结果,特别是在敏感领域。可解释性也有助于识别和纠正偏见或错误,确保模型是安全和合乎道德的。例如,如果一个模型一贯偏向某些观点,了解为什么可以帮助开发人员纠正它。这就是为什么研究人员致力于使这些模型更加透明的原因。
Anthropic 公司是 Claude 的背后推手,他们一直在努力打开这个黑盒。他们在弄清楚 LLM 怎么思考方面取得了令人兴奋的进展,本文将探讨他们在使 Claude 的过程更容易理解方面的突破。
Claude 思维地图
2024 年中,Anthropic 的团队取得了一个令人兴奋的 突破。他们创建了一个基本的“地图”,展示了 Claude 如何处理信息。使用一种叫做 词典学习 的技术,他们在 Claude 的“大脑”中发现了数百万个模式——其神经网络。每个模式或“特征”都与一个特定的想法相关。例如,一些特征帮助 Claude 识别城市、著名人物或编码错误。其他特征与更复杂的主题相关,例如性别偏见或保密性。
研究人员发现,这些想法并不是孤立地存在于个别神经元中。相反,它们分布在 Claude 网络的许多神经元中,每个神经元都为多个想法做出贡献。这种重叠使得 Anthropic 的研究人员一开始难以理解这些想法。但是,通过识别这些重复的模式,Anthropic 的研究人员开始解码 Claude 怎么组织其思维。
追踪 Claude 的推理
接下来,Anthropic 想要看看 Claude 怎么使用这些想法来做出决定。他们最近开发了一种叫做 归因图 的工具,它就像一个一步一步的指南,展示了 Claude 思维过程的每一步。图中的每个点代表了 Claude 大脑中闪现的想法,箭头显示了一个想法如何转化为另一个想法。这个图允许研究人员跟踪 Claude 怎么将问题转化为答案。
为了更好地理解归因图的工作原理,我们来看一个例子:当被问到“德克萨斯州的首都是什么?”时,Claude 需要意识到达拉斯位于德克萨斯州,然后回忆起德克萨斯州的首府是奥斯汀。归因图显示了这个确切的过程——Claude 的一部分标记了“德克萨斯州”,这导致另一部分选择了“奥斯汀”。该团队甚至通过修改“德克萨斯州”的部分来测试它,果然,答案改变了。这表明 Claude 不仅仅是在猜测——它正在解决问题,我们现在可以看到它的思考过程。
为什么这很重要:来自生物科学的类比
为了理解为什么这很重要,我们可以考虑生物科学领域的一些重大发展。就像显微镜的发明使科学家能够发现细胞——生命的隐藏构建块——一样,这些可解释性工具使 AI 研究人员能够发现模型内部的思维构建块。就像绘制大脑神经回路或测序基因组为医学领域的突破铺平了道路一样,绘制 Claude 内部工作原理的图谱可能为更可靠和可控的机器智能铺平了道路。这些可解释性工具可以在帮助我们窥视 AI 模型的思考过程中发挥至关重要的作用。
挑战
尽管取得了这些进展,我们仍然远远没有完全理解像 Claude 这样的 LLM。目前,归因图只能解释大约四分之一的 Claude 的决定。虽然其特征地图令人印象深刻,但它只涵盖了 Claude 大脑内部发生的部分内容。由于 Claude 和其他 LLM 具有数十亿个参数,对于每个任务,它们会执行无数次计算。追踪每个计算以了解答案如何形成,就像试图跟踪人类大脑在单个思维过程中每个神经元的激发一样。
还有“幻觉”的挑战。有时候,AI 模型会生成听起来合理但实际上是错误的响应——例如,自信地陈述一个错误的事实。这是因为模型依赖于训练数据中的模式,而不是对世界的真正理解。了解为什么它们会陷入虚构的原因仍然是一个困难的问题,突出了我们对其内部工作原理的理解中的差距。
偏见 是另一个重大障碍。AI 模型从互联网上收集的庞大数据集学习,这些数据集本身就带有人类的偏见——刻板印象、偏见和其他社会缺陷。如果 Claude 从其训练数据中继承了这些偏见,它可能会在其回答中体现出来。解开这些偏见的来源以及它们如何影响模型的推理是一个复杂的挑战,需要技术解决方案和对数据和伦理的仔细考虑。
结论
Anthropic 在使大型语言模型(LLM)如 Claude 更加可理解方面的工作是人工智能透明度方面的一个重大进步。通过揭示 Claude 如何处理信息和做出决定,他们正在解决人工智能问责制的关键问题。这种进展为像医疗保健和法律这样的关键领域安全整合 LLM铺平了道路,在这些领域,信任和伦理至关重要。
随着提高可解释性的方法的发展,曾经对采用 AI 持谨慎态度的行业现在可以重新考虑。像 Claude 这样的透明模型为 AI 的未来提供了一个清晰的道路——不仅复制人类的智慧,还解释了其推理过程。












