人工智能

测试时缩放:新一波博士级推理模型背后的秘密酱料

mm

人工智能领域已经发展到一个阶段,即简单地添加更多数据或增加模型大小并不是使其更智能的最佳方法。过去几年,我们认为,如果我们构建更大的神经网络并将更多的互联网数据输入其中,它们最终会变得更智能。这种方法被称为缩放定律,效果非常好。它给了我们可以写诗、翻译语言和通过律师考试的模型。然而,这些模型在处理深度逻辑、复杂数学和多步科学问题时往往会遇到困难。它们擅长模式匹配,但在需要多步推理的问题上往往会失败。

最近,一个新的趋势出现了,这正在改变我们对人工智能能力的思考方式。这种趋势被称为测试时缩放。研究人员不再仅仅关注模型在训练阶段学到了什么,而是关注模型在实际回答问题时“思考”了多少。这一转变是最新一波推理模型(如OpenAI的o1系列)的秘密酱料,这些模型现在可以在物理、化学和生物等难度较大的科目中达到博士生的水平。

从训练缩放到推理缩放的转变

为了了解为什么这是一个重大变化,我们必须看看人工智能是如何构建的。传统上,模型的“智能”是基于其训练的。这种方法包括花费数月和数百万美元来运行大量数据,并通过数千个GPU。训练完成后,模型基本上就被冻结了。当你问它一个问题时,它会几乎瞬间提供一个答案,基于它已经学到的模式。这就是我们所说的推理或测试时。

这种传统方法的问题在于,模型只有一个机会来回答正确。它处理提示并生成一个接着一个的令牌,没有办法在说话之前“思考”或“再次检查”自己的逻辑。测试时缩放改变了这种动态。它允许模型在推理阶段使用更多的计算资源。就像人类可能需要几秒钟来回答一个简单的问题,但需要几分钟或几个小时来解决一个复杂的数学问题一样,人工智能模型现在被设计为根据任务的难度来调整其努力。

测试时缩放的概念定义

测试时缩放指的是允许人工智能模型使用额外的计算资源来处理请求的技术。在简单的术语中,这意味着给模型更多的“思考时间”。这不仅仅是使模型更大;这是使模型更加深思熟虑。当模型使用测试时缩放时,它不会只是产生第一个想到的答案。相反,它可能会探索不同的路径,检查自己的逻辑错误,并在用户看到之前完善其响应。

这个概念经常被比喻为人类大脑的工作方式。心理学家经常谈论“系统1”和“系统2”思维。系统1是快速的、直觉的和情绪化的。这是你在识别面孔或在熟悉的道路上驾驶汽车时使用的系统。系统2是较慢的、更深思熟虑的和逻辑的。这是你在解决一个困难的数学方程或计划一个复杂的项目时使用的系统。直到最近,大型语言模型主要是系统1的思考者。测试时缩放是连接它们到系统2思维的桥梁。

推理过程的机制

有几种方法可以实现测试时缩放。最常见的方法之一被称为思维链(CoT)提示,但在这些新模型中,它直接内置在系统中,而不是用户必须要求的东西。模型被训练来将问题分解为较小的逻辑步骤。通过这样做,模型可以在转到下一步之前验证解决方案的每个部分。

另一个重要的技术涉及搜索算法,例如蒙特卡罗树搜索。模型不仅仅预测下一个最可能的单词,而是生成多个可能的答案路径。它评估这些路径并确定哪一个最有可能导致正确的解决方案。如果它遇到死胡同或意识到之前的步骤是错误的,它可以回到过去并尝试不同的方法。这一“展望”能力与国际象棋引擎在选择最佳移动之前评估数千种可能的移动非常相似。通过在推理阶段搜索多种可能性,模型可以解决比标准大型语言模型直接解决的更复杂的问题。

为什么博士级推理需要超过记忆

这一点很重要,因为科学和数学中的高级推理不能仅通过记忆来解决。在博士级物理考试中,你不能简单地重复课本中的一个事实。你必须将复杂的原理应用于新的和独特的情况。标准模型通常在这些场景中产生幻觉,因为它们试图根据概率而不是逻辑预测下一个单词。

测试时缩放允许模型像研究人员一样行事。它可以在内部测试假设。例如,如果模型被要求编写一段复杂的代码,它可以在其隐藏的思维链中“运行”逻辑,识别潜在的错误并在呈现最终代码之前进行纠正。这种自我纠正的能力使得新一波模型能够在像美国数学邀请考试(AIME)GPQA(由专家设计的具有挑战性的科学测试)这样的基准测试中获得高分。它们不仅仅是在猜测;它们正在验证。

效率权衡和计算成本

虽然测试时缩放很强大,但它带来了巨大的成本。在旧方法中,人工智能中最昂贵的部分是训练。一旦模型部署,运行它相对便宜和快速。使用测试时缩放,成本转移到了用户的请求上。由于模型正在生成多个路径并检查自己的工作,因此它需要更长的时间来响应并需要更多的硬件资源。

这为人工智能创造了新的经济学。我们正在进入一种情况,其中“每次查询的成本”可能会大幅度变化。关于天气的一个简单问题可能只需要花费几分钱并需要一秒钟。一个深入的科学探究可能需要几美元的计算时间,并可能需要一小时来处理。这种权衡是为了实现高级推理所必需的,但它也意味着开发人员必须找到方法使这些模型高效,以便它们可以在医疗或工程等行业中大规模使用。

对人工智能未来的影响

测试时缩放的崛起表明,我们可能正在进入人工智能开发的新时代。多年来,人们担心我们最终会用完高质量的人类数据来训练模型。如果模型只从人类已经写过的内容中学习,它们可能会遇到瓶颈。然而,测试时缩放表明,模型可以通过更深入的思考来提高其性能,而不仅仅是阅读更多内容。

这为人工智能开启了自主发现的可能性。如果一个模型可以推理出它以前从未见过的问题,它可能会在材料科学、药物发现或可再生能源等领域找到新的解决方案。它将人工智能从一个有用的助手转变为一个可以帮助解决世界上最难的问题的数字合作伙伴。我们正在从“生成”人工智能转向“推理”人工智能。

结论

测试时缩放被证明是高级人工智能的缺失环节。通过允许模型在推理时使用更多的计算资源,我们已经解锁了以前认为需要几年时间才能实现的性能水平。这些模型开始展示出一种更接近人类智能的逻辑,而不是过去的简单模式识别。

当我们向前迈进时,挑战将是完善这些技术。我们需要使推理更快、更方便,同时找到“快速”和“慢速”思考之间的正确平衡。秘密酱料不再只是模型的大小或它所看到的数据量。秘密在于模型如何使用时间来思考。对于任何关注人工智能进展的人来说,很明显焦点已经转移。竞争不再仅仅是谁拥有最大的模型,而是谁拥有最好的推理模型。这种转变可能会定义人工智能领域未来十年的创新。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。