人工智能

OpenAI 的 RFT 使 AI 在专门任务中变得更智能

发布于 2024年12月11日

更新于 2026年5月20日

作者

Alex McFarland

记得当我们认为 AI 完成一个句子是开创性的吗？那些日子现在感觉很遥远，因为 AI 已经从简单的模式匹配演变到日益复杂的推理。AI 面临的挑战一直是通用知识和专门专业知识之间的差距。当然，大型语言模型（LLM）可以讨论几乎任何事情，但要求它们一致地执行复杂的技术任务？那是事情往往变得令人沮丧的地方。

传统的 AI 模型具有广泛的知识，但缺乏来自多年专门经验的精炼专业知识。这就是 OpenAI 的强化细化（RFT）出现的地方。

了解 RFT：当 AI 学会思考，而不仅仅是响应

让我们分析一下 RFT 的不同之处，以及为什么它对任何对 AI 实际应用感兴趣的人都很重要。

传统的细化就像通过示例教学：您向 AI 显示正确的答案，并希望它学习潜在的模式。

但这里是 RFT 创新的地方：

主动学习过程：与传统方法不同，模型只是学习模仿响应，RFT 允许 AI 开发自己的问题解决策略。这是记住答案和理解如何解决问题之间的区别。
实时评估：该系统不仅检查答案是否与模板匹配，还评估推理过程本身的质量。可以把它看作是评分工作，而不仅仅是最终答案。
加强理解：当 AI 找到解决问题的成功方法时，该路径就会被加强。它类似于人类专家通过多年的经验发展直觉的方式。

这对行业来说特别有趣，因为它使专家级 AI 民主化。以前，创建高度专门的 AI 系统需要大量资源和专业知识。RFT 改变了这一点，通过提供更易访问的途径来开发专家 AI 系统。

现实世界的影响：RFT 发挥作用的地方

伯克利实验室实验

RFT 最全面的实施来自伯克利实验室的遗传疾病研究。他们面临的挑战是多年来一直困扰医疗 AI 的问题：将复杂的症状模式与特定的遗传原因联系起来。传统的 AI 模型通常在这里遇到困难，缺乏可靠的医疗诊断所需的细致理解。

伯克利的团队通过将系统与从数百篇科学论文中提取的数据一起使用来解决这个挑战。每篇论文都包含了症状和相关基因之间的宝贵联系。他们使用 o1 Mini 模型，这是 OpenAI 技术的一个较小、更高效的版本。

经过 RFT 训练的 Mini 模型在最大范围内实现了最高 45% 的准确率，超越了较大的传统模型。这不仅仅是关于原始数字 – 该系统还可以解释其推理，这使其对实际的医疗应用程序具有价值。当处理遗传诊断时，理解为什么存在某种联系与找到联系本身一样至关重要。

图片：Rohan Paul/X

汤姆森路透社

汤姆森路透社的实施为我们提供了一个不同的视角来看待 RFT 的能力。他们选择实施紧凑的 o1 Mini 模型作为法律助手，专注于法律研究和分析。

使得这个实施特别有趣的是他们正在使用的框架。法律分析需要对背景和先例有深入的理解 – 不足以简单地匹配关键字或模式。RFT 系统通过多个阶段处理法律查询：分析问题，制定潜在解决方案，并根据已知的法律标准评估响应。

使其成为可能的技术架构

在这些实施背后是一个复杂的技术框架。可以把它看作是一个持续的学习循环：系统接收一个问题，处理潜在的解决方案，根据其性能进行评估，并加强成功的方法，同时削弱不成功的方法。

在伯克利的例子中，我们可以看到它如何转化为真正的性能改进。他们的系统从基本的模式识别开始，但发展到理解复杂的症状 – 基因关系。处理的病例越多，它就越擅长于识别可能逃避传统分析的微妙联系。

这种方法的力量在于其适应性。无论是分析遗传标记还是法律先例，核心机制保持不变：提出一个问题，允许时间用于解决方案开发，评估响应，并加强成功的模式。

在医学和法律领域的成功表明了 RFT 的多功能性。这些早期的实施教会了我们一些至关重要的东西：专门的专业知识不需要大型模型。相反，它是关于专注的训练和成功模式的智能加强。

我们正在看到一个新的范式的出现，在 AI 开发中，小型、专门的模型可以超越其较大、更通用的对应模型。这种效率创造了更精确、更可靠的 AI 系统，用于专门的任务。

图片：OpenAI

为什么 RFT 超越传统方法

RFT 的技术优势在其性能指标和实施细节中清晰地体现出来。

重要的性能指标

RFT 的效率在几个关键领域体现出来：

精度与资源使用
- 紧凑的模型提供专门的专业知识
- 针对特定任务的训练协议
- 任务特定的准确性改进
成本效益
- 简化的训练周期
- 优化的资源分配
- 高效的数据利用

开发者友好的实施

RFT 的可访问性使其在实际开发中脱颖而出：

简化的 API 集成
内置的评估系统
清晰的反馈循环

系统通过主动使用而演化，创建了一个持续改进的循环，通过每次交互加强其专门的能力。

超越当前应用

创建专家 AI 系统的传统途径是昂贵的、耗时的，并且需要深入的机器学习专业知识。RFT 从根本上改变了这个等式。OpenAI 已经创建了更易访问的东西：组织只需要提供他们的数据集和评估标准。复杂的强化学习发生在幕后。

2025 年初将标志着一个重要的里程碑，因为 OpenAI 计划公开提供 RFT。这给了我们一个关于即将发生的事情的瞥见：一个新的时代，专门的 AI 将变得更加容易被各个规模的组织获取。

影响力在各个行业都有所不同，但核心机会始终保持一致：创建高度专门的 AI 助手的能力，而无需大量的基础设施投资。

医疗保健组织可能会开发专门从事罕见疾病识别的系统，利用他们独特的患者数据库。金融机构可以创建擅长风险评估的模型，训练在他们特定的市场经验上。工程公司可能会开发理解他们特定的技术标准和项目要求的 AI。

如果您正在考虑在 RFT 可用时实施它，以下是最重要的事情：

现在开始组织您的数据。RFT 的成功在很大程度上取决于拥有结构良好的示例和明确的评估标准。开始记录您组织内的专家决策及其推理。
思考哪些特定任务将从 AI 助手中受益最多。RFT 的最佳应用不是关于取代人类专业知识 – 而是放大它在高度特定化的背景下。

这种高级 AI 能力的民主化可能会重塑组织如何处理复杂的技术挑战。小型研究实验室可能会开发专门的分析工具。精品法律事务所可以创建定制的法律研究助手。随着每个新实施，可能性不断扩大。

接下来是什么？

OpenAI 的研究计划目前正在接受希望有助于塑造这一技术发展的组织。对于那些希望站在前沿的人来说，这个早期访问期提供了一个独特的机会来影响 RFT 的演变。

明年可能会带来对技术的改进、新用例和日益复杂的实施。我们才刚刚开始了解将深入专业知识与 AI 的模式识别能力结合起来的全部潜力。

记住：RFT真正革命性的地方不仅在于其技术上的复杂性 – 而在于它为组织创造真正理解其特定领域的 AI 系统开辟了新的可能性。