人工智能
Claude 怎么思考? Anthropic 的解锁 AI 黑盒之旅

大型语言模型(LLMs)如 Claude 已经改变了我们使用技术的方式。它们为聊天机器人、写作和甚至创作诗歌提供了动力。但尽管它们具有惊人的能力,这些模型在很多方面仍然是一个谜。人们经常称它们为“黑盒”,因为我们可以看到它们说什么,但不知道它们是如何得出结论的。这一缺乏理解在医学或法律等重要领域尤其成问题,因为错误或隐藏的偏见可能会造成真正的伤害。
理解 LLMs 的工作原理对于建立信任至关重要。如果我们无法解释为什么一个模型给出了特定的答案,很难相信其结果,尤其是在敏感领域。可解释性也有助于识别和修复偏见或错误,确保模型是安全和道德的。例如,如果一个模型一致地偏爱某些观点,了解为什么可以帮助开发人员纠正它。这一对清晰度的需求推动了使这些模型更透明的研究。
Anthropic 公司是 Claude 的背后公司,他们一直在努力打开这个黑盒。他们在弄清楚 LLMs 怎么思考方面取得了令人兴奋的进展,本文探讨了他们在使 Claude 的过程更容易理解方面的突破。
Claude 思想地图
2024 年中期,Anthropic 的团队取得了令人兴奋的 突破。他们创建了一个基本的“地图”,以展示 Claude 如何处理信息。使用一种称为 字典学习 的技术,他们在 Claude 的“大脑”中发现了数百万个模式 – 其神经网络。每个模式或“特征”都与一个特定的想法相关。例如,一些特征帮助 Claude 识别城市、著名人物或编码错误。其他特征与更复杂的主题相关,例如性别偏见或保密性。
研究人员发现,这些想法并不是在单个神经元中孤立的。相反,它们分布在 Claude 网络的许多神经元中,每个神经元都为各种想法做出贡献。这种重叠使得 Anthropic 团队最初很难弄清楚这些想法。但是,通过识别这些反复出现的模式,Anthropic 的研究人员开始解码 Claude 怎么组织其思想。
追踪 Claude 的推理
接下来,Anthropic 想要看看 Claude 怎么使用这些想法来做出决定。他们最近构建了一个称为 归因图 的工具,它的工作原理类似于 Claude 思维过程的步骤指南。图中的每个点都是 Claude 大脑中闪现的想法,箭头显示了一个想法如何流入下一个想法。这个图允许研究人员跟踪 Claude 如何将问题转化为答案。
为了更好地理解归因图的工作原理,让我们考虑这个例子:当被问到“达拉斯所在州的首都是什么?”时,Claude 必须意识到达拉斯位于德克萨斯州,然后回忆德克萨斯州的首都是奥斯汀。归因图显示了这个确切的过程 – Claude 的一部分标记了“德克萨斯州”,这导致另一部分选择了“奥斯汀”。团队甚至通过修改“德克萨斯州”的部分进行了测试,果然答案改变了。这表明 Claude 不仅仅是在猜测 – 它正在解决问题,我们现在可以看到它的思考过程。
为什么这很重要:生物科学中的一个类比
为了理解为什么这很重要,考虑生物科学中的一个类比。就像显微镜的发明使科学家能够发现细胞 – 生命的隐藏构建块 – 这些可解释性工具使 AI 研究人员能够发现模型中的思想构建块。就像绘制大脑中的神经回路或测序基因组为医学的突破铺平了道路一样,绘制 Claude 的内部工作原理可能会为更可靠和可控的机器智能铺平道路。这些可解释性工具可以发挥至关重要的作用,帮助我们窥视 AI 模型的思考过程。
挑战
尽管取得了这些进展,我们仍然远远没有完全理解像 Claude 这样的 LLMs。目前,归因图只能解释大约四分之一的 Claude 的决定。虽然其特征地图令人印象深刻,但它只涵盖了 Claude 大脑中发生的事件的一小部分。由于 Claude 和其他 LLMs 具有数十亿个参数,因此它们在每项任务中执行无数计算。追踪每个计算以查看答案如何形成就像试图在人类大脑中跟踪每个神经元在单个想法期间的激发。
还有“幻觉”的挑战。有时,AI 模型会生成听起来合理但实际上是错误的响应 – 例如,自信地陈述一个错误的事实。这是因为模型依赖于其训练数据中的模式,而不是对世界的真正理解。了解为什么它们会陷入虚构仍然是一个困难的问题,突出了我们对其内部工作原理的理解中存在的差距。
偏见 是另一个重大的障碍。AI 模型从互联网上收集的庞大数据集学习,这些数据集本身就带有人类偏见 -刻板印象、偏见和其他社会缺陷。如果 Claude 从其训练数据中继承了这些偏见,它可能会在其答案中反映出来。解开这些偏见的来源以及它们如何影响模型的推理是一个复杂的挑战,需要技术解决方案和对数据和伦理的仔细考虑。
结论
Anthropic 在使大型语言模型(LLMs)如 Claude 更加可理解方面的工作是 AI 透明度方面的一个重大进步。通过揭示 Claude 如何处理信息和做出决定,他们正在推进解决 AI 责任制的关键问题。这个进展为安全地将 LLMs 集成到医疗保健和法律等关键领域打开了大门,在这些领域,信任和伦理至关重要。
随着改进可解释性的方法的发展,曾经犹豫是否采用 AI 的行业现在可以重新考虑。像 Claude 这样的透明模型为 AI 的未来提供了一个明确的道路 – 不仅复制人类的智慧,还解释了其推理。
