人工智能
Allen AI的Tülu 3意外成为DeepSeek的对手

新闻不断。 DeepSeek的模型一直在挑战基准,设定新的标准,并引起了很大的轰动。但是,AI研究场景中刚刚发生了一件有趣的事情,也值得你的关注。
Allen AI悄悄发布了他们新的 Tülu 3模型家族,他们的405B参数版本不仅与DeepSeek竞争,而且在关键基准上匹配或超越了它。
让我们把这件事放在适当的角度看待。
405B Tülu 3模型正在与顶级模型如 DeepSeek V3在各种任务上竞争。我们看到,在数学问题、编码挑战和精确指令跟随等领域,表现出可比或更好的性能。他们还以完全开放的方式实现了这一点。
他们发布了完整的训练流水线、代码,甚至他们的新型强化学习方法,称为具有可验证奖励的强化学习(RLVR),使这一切成为可能。
过去几周的发展真的改变了顶级AI开发的方式。当一个完全开源模型可以匹配外面的最佳闭源模型时,它打开了以前被私人公司墙壁锁住的可能性。
技术之战
是什么让Tülu 3脱颖而出?这归结于一种独特的四阶段训练过程,超越了传统的方法。
让我们看看Allen AI如何构建这个模型:
第一阶段:战略数据选择
该团队知道,模型质量始于数据质量。他们将既定的数据集,如 WildChat和 Open Assistant,与自动生成的内容结合。但是,这里有一个关键的洞察:他们不仅仅是聚合数据——他们为特定的技能创建了针对性的数据集,例如数学推理和编码能力。
第二阶段:建立更好的响应
在第二阶段,Allen AI专注于教授他们的模型特定的技能。他们创建了不同的训练数据集——一些用于数学,其他用于编码,更多用于一般任务。通过反复测试这些组合,他们可以看到模型在哪里出色,哪里需要改进。这种迭代过程揭示了Tülu 3在每个领域真正的潜力。
第三阶段:从比较中学习
这是Allen AI变得创新的地方。他们建立了一个系统,可以瞬间比较Tülu 3的响应与其他顶级模型。但是,他们还解决了AI中一个持续的问题——模型倾向于仅仅为了长度而写出长响应的倾向。他们使用长度归一化的直接偏好优化(DPO),这意味着模型学会了重视质量而不是数量。结果?响应既精确又有目的。
当AI模型从偏好中学习(哪个响应更好,A还是B?)时,它们往往会发展出一种令人沮丧的偏见:它们开始认为更长的响应总是更好。就像它们试图通过说更多而不是说得更好来赢得胜利。
长度归一化的DPO通过调整模型从偏好中学习的方式来解决这个问题。它不仅仅看哪个响应被更喜欢,还考虑每个响应的长度。可以把它看作是根据每个字的质量来判断响应,而不是仅仅根据总体影响。
为什么这很重要?因为它帮助Tülu 3学会精确和高效。它不再通过添加额外的词来使响应看起来更全面,而是学会在真正需要的长度内提供价值。
这可能看起来像是一个小细节,但对于构建自然交流的AI来说,它至关重要。最好的人类专家知道何时要简洁,何时要详细——这正是长度归一化的DPO帮助模型学习的东西。
第四阶段:RLVR创新
这是一个值得关注的技术突破。RLVR用具体的可验证结果取代了主观的奖励模型。
大多数AI模型通过一个复杂的奖励模型系统学习——本质上是关于什么样的响应是好的有根据的猜测。但是,Allen AI在RLVR中走了一条不同的路。
想想我们通常如何训练AI模型。我们通常需要其他AI模型(称为奖励模型)来判断响应是否好。它是主观的,复杂的,往往不一致。一些响应可能看起来很好,但可能包含微妙的错误,从而通过。
RLVR颠覆了这种方法。它不再依赖主观判断,而是使用具体的可验证结果。当模型尝试数学问题时,没有灰色地带——答案要么是对的,要么是错的。当它编写代码时,这段代码要么运行正确,要么运行不正确。
以下是它变得有趣的地方:
- 模型获得立即的、 二元的反馈:10分用于正确答案,0分用于错误答案
- 没有部分信用或模糊评估的空间
- 学习变得集中和精确
- 模型学会优先考虑准确性而不是听起来很好但不正确的响应

RLVR训练(Allen AI)
结果?Tülu 3在正确性至关重要的任务中表现出显著的改进。其在数学推理(GSM8K基准)和编码挑战方面的性能有了显著的提高。甚至其指令跟随也变得更加精确,因为模型学会了重视具体的准确性而不是近似的响应。
为什么这特别令人兴奋,是因为它改变了开源AI的游戏规则。以前的方法通常难以在技术任务上匹配闭源模型的精度。RLVR表明,使用正确的训练方法,开源模型可以达到同样的可靠性水平。
数据分析
405B参数版本的Tülu 3直接与领域中的顶级模型竞争。让我们看看它在哪里出色,以及这对开源AI意味着什么。
数学
Tülu 3在复杂的数学推理方面表现出色。在GSM8K和MATH等基准上,它匹配了DeepSeek的性能。该模型处理多步骤问题,并展示了强大的数学推理能力。
代码
编码结果同样令人印象深刻。感谢RLVR训练,Tülu 3编写出有效解决问题的代码。其优势在于理解编码指令并产生功能性解决方案的能力。
精确指令跟随
模型跟随指令的能力脱颖而出,成为一个核心优势。虽然许多模型近似或概括指令,但Tülu 3展示了在执行指令方面的显著精确性。
打开AI开发的黑盒子
Allen AI发布了一个强大的模型和他们的完整开发过程。
训练过程的每个方面都被记录和公开。从四阶段方法到数据准备方法和RLVR实现——整个过程都公开供研究和复制。这一透明度为高性能AI开发设定了新的标准。
开发人员获得了全面的资源:
- 完整的训练流水线
- 数据处理工具
- 评估框架
- 实现规范
这使得团队能够:
- 修改训练过程
- 适应特定需求的方法
- 建立在经过验证的方法之上
- 创建专用实现
这加速了整个领域的创新。研究人员可以建立在经过验证的方法之上,而开发人员可以专注于改进,而不是从零开始。
开源卓越的崛起
Tülu 3的成功是开源AI开发的一个大时刻。当开源模型匹配或超过私人替代品时,它从根本上改变了该行业。来自世界各地的研究团队可以访问经过验证的方法,从而加快了他们的工作,并催生了新的创新。私人AI实验室需要适应——要么增加透明度,要么进一步推动技术边界。
展望未来,Tülu 3在可验证奖励和多阶段训练方面的突破预示着即将发生的事情。团队可以建立在这些基础上,可能将性能推向更高。代码存在,方法得到了记录,新的AI开发浪潮已经开始。对于开发人员和研究人员来说,能够尝试和改进这些方法标志着AI开发的一个令人兴奋的新篇章的开始。
关于Tülu 3的常见问题(FAQ)
什么是Tülu 3及其主要特点是什么?
Tülu 3是由Allen AI开发的开源LLM家族,基于Llama 3.1架构。它有多种尺寸(8B、70B和405B参数)。Tülu 3旨在提高知识、推理、数学、编码、指令跟随和安全性等各个任务的性能。
Tülu 3的训练过程是什么,使用了什么数据?
Tülu 3的训练涉及几个关键阶段。首先,团队从公共数据集和针对特定技能的合成数据中策划出一组多样化的提示,确保数据被去污以适应基准。其次,在一组混合了指令跟随、数学和编码数据的数据集上执行了监督微调(SFT)。然后,使用通过人类和LLM反馈生成的偏好数据执行直接偏好优化(DPO)。最后,对于具有可衡量的正确性的任务,使用强化学习与可验证的奖励(RLVR)。Tülu 3使用针对每个阶段的策划数据集,包括基于人物的指令、数学和代码数据。
Tülu 3如何处理安全性,并使用什么指标来评估它?
安全性是Tülu 3开发的核心组成部分,贯穿整个训练过程。在SFT期间使用了专门针对安全性的数据集,这被发现与其他任务导向的数据大致正交。
什么是RLVR?
RLVR是一种技术,其中模型被训练为优化可验证的奖励,例如答案的正确性。这与传统的RLHF不同,后者使用奖励模型。













