人工智能
Phi-4-Reasoning 如何挑战“越大越好”的神话,重新定义人工智能推理

微软最近发布的 Phi-4推理 挑战了构建推理能力人工智能系统的关键假设。自 2022 年引入思路链式推理以来,研究人员一直认为,高级推理需要包含数千亿个参数的超大型语言模型。然而,微软全新推出的拥有 14 亿个参数的 Phi-4-reasoning 模型对这一观点提出了质疑。该模型采用以数据为中心的方法,而非单纯依赖计算能力,实现了与更大规模系统相当的性能。这一突破表明,以数据为中心的方法对于训练推理模型的有效性与传统 AI 训练一样高。它通过改变 AI 开发人员训练推理模型的方式,从“越大越好”转变为“数据越多越好”,为小型 AI 模型实现高级推理开辟了可能性。
传统推理范式
思路推理 已成为解决人工智能复杂问题的标准。该技术引导语言模型逐步推理,将难题分解成更小、更易于管理的步骤。它模仿人类思维,让模型在给出答案之前用自然语言“大声思考”。
然而,这种能力也有一个重要的局限性。研究人员一直 发现 只有在语言模型非常大的情况下,思路链提示才会有效。推理能力似乎与模型大小直接相关,更大的模型在复杂的推理任务中表现更好。这一发现引发了构建大型推理模型的竞争,各公司专注于将其大型语言模型转化为强大的推理引擎。
将推理能力融入人工智能模型的想法主要来自于对大型语言模型能够执行 情境学习。 研究人员 观察 当模型被展示逐步解决问题的示例时,它们会学习遵循这种模式来处理新问题。这导致人们相信,在海量数据上训练的大型模型自然会发展出更高级的推理能力。模型规模与推理性能之间的紧密联系已成为公认的观点。团队投入了大量资源来扩展推理能力,使用 强化学习,认为计算能力是高级推理的关键。
理解以数据为中心的方法
的崛起 以数据为中心的人工智能 挑战“越大越好”的思维模式。这种方法将重点从模型架构转移到精心设计用于训练人工智能系统的数据。以数据为中心的方法论不再将数据视为固定的输入,而是将数据视为可以改进和优化以提升人工智能性能的材料。
吴恩达是该领域的领军人物, 促进 建立系统化的工程实践来提升数据质量,而不仅仅是调整代码或扩展模型。这种理念认识到,数据质量和管理通常 更重要 而不是模型大小。采用这种方法的公司表明,如果在高质量、精心准备的数据集上进行训练,较小但训练良好的模型可以胜过较大的模型。
以数据为中心的方法提出了一个不同的问题:“我们如何改进数据?”,而不是“我们如何让模型变得更大?” 这意味着创建更好的训练数据集,提高数据质量,并开发系统性的数据工程。在以数据为中心的人工智能中,重点在于理解是什么让数据能够有效地完成特定任务,而不仅仅是收集更多数据。
这种方法在使用小型数据集和更少计算量训练小型但功能强大的AI模型方面展现出巨大的潜力。微软的Phi模型就是使用以数据为中心的方法训练小型语言模型的一个很好的例子。这些模型使用以下方法进行训练: 课程学习 其灵感主要来源于儿童通过逐步增加难度的例子进行学习的方式。最初,模型使用简单的例子进行训练,然后逐渐用更难的例子替代。微软根据教科书构建了一个数据集,正如他们在论文“教科书就是你所需要的”这很有帮助 Φ3 在语言理解、常识、小学数学问题和医学问答等任务中表现优于谷歌的 Gemma 和 GPT 3.5 等模型。
尽管以数据为中心的方法取得了成功,但推理通常仍然是大型人工智能模型的一个特征。这是因为推理需要复杂的模式和知识,而大型模型更容易捕捉这些模式和知识。然而,这种信念最近受到了 Phi-4 推理模型发展的挑战。
Phi-4-reasoning的突破策略
Phi-4-reasoning 展示了如何运用以数据为中心的方法训练小型推理模型。该模型基于基础 Phi-4 模型,通过监督微调构建而成,这些模型基于精心挑选的“可教”提示和 OpenAI o3-mini 生成的推理示例。其重点在于质量和特异性,而非数据集大小。该模型使用约 1.4 万个高质量提示进行训练,而非数十亿个通用提示。研究人员筛选了示例,以涵盖不同的难度级别和推理类型,从而确保了多样性。这种精心筛选使每个训练示例都具有针对性,教会模型特定的推理模式,而不仅仅是增加数据量。
在监督微调中,模型通过涉及完整思维过程的完整推理演示进行训练。这些循序渐进的推理链帮助模型学习如何构建逻辑论证并系统地解决问题。为了进一步提升模型的推理能力,我们利用约 6,000 道已验证答案的高质量数学题,通过强化学习对其进行了进一步完善。这表明,即使少量的专注强化学习应用于精心策划的数据,也能显著提升推理能力。
表现超出预期
结果证明这种以数据为中心的方法是有效的。Phi-4 推理的性能优于更大的开放权重模型,例如 DeepSeek-R1-Distill-Llama-70B 几乎与完整 DeepSeek-R1尽管规模小得多。在 AIME 2025 测试(美国数学奥林匹克预选赛)中,Phi-4-reasoning 击败了拥有 1 亿个参数的 DeepSeek-R671。
这些提升不仅限于数学,还涵盖科学问题解决、编程、算法、规划和空间任务。精心数据管理带来的改进能够很好地迁移到通用基准测试中,这表明这种方法能够培养基础推理能力,而非特定任务的技巧。
Phi-4-reasoning 挑战了高级推理需要海量计算的理念。一个拥有 14 亿参数的模型,在使用精心挑选的数据进行训练时,其性能可以匹敌数十倍于此的模型。这种效率对于在资源有限的情况下部署推理型人工智能具有重要意义。
对人工智能发展的影响
Phi-4-reasoning 的成功标志着 AI 推理模型构建方式的转变。团队不再仅仅关注模型规模的扩大,而是可以通过投资数据质量和数据管理来获得更好的结果。这使得无需巨额计算预算的组织也能更容易地实现高级推理。
以数据为中心的方法也开辟了新的研究方向。未来的研究可以专注于寻找更好的训练提示、进行更丰富的推理演示,以及理解哪些数据最有助于推理。这些方向可能比仅仅构建更大的模型更有成效。
更广泛地说,这有助于实现人工智能的大众化。如果基于精选数据训练的小型模型能够与大型模型匹敌,那么高级人工智能将可供更多开发者和组织使用。这也能加速大型模型不适用领域的人工智能应用和创新。
推理模型的未来
Phi-4-reasoning 为推理模型开发树立了新标准。未来的人工智能系统可能会在严谨的数据管理和架构改进之间取得平衡。这种方法承认数据质量和模型设计都很重要,但改进数据可能会带来更快、更经济的收益。
这也使得基于特定领域数据训练的专用推理模型成为可能。团队无需构建通用的庞然大物,而是可以通过有针对性的数据管理,构建在特定领域表现优异的专注模型。这将为特定用途打造更高效的人工智能。
随着人工智能的进步,Phi-4 推理的经验教训不仅会影响推理模型的训练,还将影响整个人工智能的发展。数据管理成功突破了规模限制,这表明未来的进步在于将模型创新与智能数据工程相结合,而不仅仅是构建更大的架构。
底线
微软的 Phi-4-reasoning 颠覆了高级 AI 推理需要超大模型的普遍观念。该模型摒弃了依赖更大模型的理念,而是采用以数据为中心的方法,使用高质量且精心挑选的训练数据。Phi-4-reasoning 仅有 14 亿个参数,但在处理复杂推理任务时却能与规模更大的模型表现媲美。这表明,关注更优质的数据比仅仅增加模型规模更为重要。
这种新的训练方式使高级推理人工智能更加高效,即使是缺乏大量计算资源的组织也能轻松上手。Phi-4-reasoning 的成功为人工智能发展指明了新的方向。它专注于提升数据质量、进行智能训练和精心设计,而不仅仅是扩大模型规模。
这种方法可以帮助人工智能更快地发展,降低成本,并让更多人和公司能够使用强大的人工智能工具。未来,人工智能很可能通过将更优的模型与更优的数据相结合而发展,使先进的人工智能能够应用于许多专业领域。