人工智能

OpenAI 的 RFT 使 AI 在专门任务中变得更智能

Published December 11, 2024

Updated April 27, 2026

Alex McFarland

记得当我们认为让 AI 完成一个句子是开创性的吗？那些日子现在感觉很遥远，因为 AI 已经从简单的模式匹配演变到越来越复杂的推理。AI 面临的挑战一直是通用知识和专门专业知识之间的差距。当然，大型语言模型（LLM）可以讨论几乎任何事情，但要求它们一致地执行复杂的技术任务？那就是事情往往变得令人沮丧的地方。

传统的 AI 模型具有广泛的知识，但缺乏来自多年专门经验的精细专业知识。这就是 OpenAI 的强化微调（RFT）登场的原因。

理解 RFT：当 AI 学会思考，而不仅仅是响应

让我们分解什么使 RFT 与众不同，以及为什么它对任何对 AI 实际应用感兴趣的人都很重要。

传统的微调就像通过示例教学：您向 AI 显示正确的答案，并希望它学习底层模式。

但是，这就是 RFT 创新的地方：

主动学习过程：与传统方法不同，模型只是学习模仿响应，RFT 允许 AI 开发自己的问题解决策略。这是记住答案和理解如何解决问题之间的区别。
实时评估：该系统不仅检查答案是否与模板匹配，还评估推理过程本身的质量。可以把它想象成对工作进行评分，而不仅仅是最终答案。
强化理解：当 AI 找到解决问题的成功方法时，该路径就会被加强。它类似于人类专家通过多年的经验开发直觉的方式。

对行业来说，特别有趣的是它如何使专家级 AI 民主化。以前，创建高度专门化的 AI 系统需要大量资源和专业知识。RFT 通过提供开发专家 AI 系统的更易访问的途径来改变这一点。

实际影响：RFT 发挥作用的地方

伯克利实验室实验

RFT 最全面的实施例子来自伯克利实验室的遗传病研究。他们面临的挑战是多年来一直困扰医疗 AI 的问题：将复杂的症状模式与特定的遗传原因联系起来。传统的 AI 模型通常会在这里遇到困难，缺乏可靠的医疗诊断所需的细致理解。

伯克利的团队通过向系统提供从数百篇科学论文中提取的数据来应对这一挑战。每篇论文都包含了症状和相关基因之间的宝贵联系。他们使用了 o1 Mini 模型，这是 OpenAI 技术的更小、更高效的版本。

经过 RFT 训练的 Mini 模型在最大范围内实现了最高 45% 的准确率，超越了更大的传统模型。这不仅仅是关于原始数字 – 系统还可以解释其推理，使其对实际的医疗应用程序具有价值。在处理遗传诊断时，理解为什么存在某种联系与找到联系本身一样重要。

图片：Rohan Paul/X

汤森路透

汤森路透的实施为 RFT 的能力提供了不同的视角。他们选择实施紧凑的 o1 Mini 模型作为法律助手，专注于法律研究和分析。

使这一实施特别有趣的是他们正在合作的框架。法律分析需要对背景和先例有深入的理解 – 不足以简单地匹配关键字或模式。RFT 系统通过多个阶段处理法律查询：分析问题，制定潜在解决方案，并根据已知的法律标准评估响应。

使其成为可能的技术架构

在这些实施背后是一个复杂的技术框架。可以把它想象成一个持续的学习循环：系统接收一个问题，通过潜在的解决方案，根据其性能进行评估，并加强成功的方法，同时削弱不成功的方法。

在伯克利的例子中，我们可以看到这如何转化为实际的性能改进。他们的系统从基本的模式识别开始，但演变为理解复杂的症状-基因关系。处理的案例越多，它就越擅长于识别可能逃避传统分析的微妙联系。

这种方法的力量在于其适应性。无论是分析遗传标记还是法律先例，核心机制保持不变：提出一个问题，允许时间用于解决方案开发，评估响应，并加强成功的模式。

在医疗和法律领域的成功表明了 RFT 的多功能性。这些早期的实施教会了我们一些关键的东西：专门的专业知识不需要大型模型。相反，它是关于专注的培训和成功模式的智能强化。

我们正在看到 AI 开发中新范式的出现 – 一种更小、更专门的模型可以在专门任务中超越更大、更通用的对手。这种效率创造了更精确、更可靠的 AI 系统，用于专门的任务。

图片：OpenAI

为什么 RFT 超越传统方法

RFT 的技术优势在其性能指标和实施细节中显现出来。

重要的性能指标

RFT 的效率体现在几个关键领域：

精度与资源使用
- 紧凑的模型提供专门的专业知识
- 针对性的培训协议
- 任务特定的准确性改进
成本效益
- 简化的培训周期
- 优化的资源分配
- 高效的数据利用

开发者友好的实施

RFT 的可访问性使其在实际开发中脱颖而出：

简化的 API 集成
内置的评估系统
清晰的反馈循环

系统通过主动使用而演进，创建一个持续改进的循环，随着每次交互而加强其专门的能力。

超越当前应用

创建专家 AI 系统的传统路径是昂贵的、耗时的，并且需要深厚的机器学习专业知识。RFT 从根本上改变了这一等式。OpenAI 创造了更易于使用的东西：组织只需要提供他们的数据集和评估标准。复杂的强化学习发生在幕后。

2025 年初将标志着一个重要的里程碑，因为 OpenAI 计划公开提供 RFT。这一时间表让我们窥见了即将发生的事情：一个新的时代，专门的 AI 将变得更加容易被各个规模的组织获取。

影响力在各个行业都有，但核心的机会保持一致：创建高度专门的 AI 助手，而无需大量的基础设施投资。

医疗保健组织可能会开发专门从事罕见疾病识别的系统，利用他们独特的患者数据库。金融机构可能会创建擅长风险评估的模型，训练在他们特定的市场经验上。工程公司可能会开发理解他们特定的技术标准和项目要求的 AI。

如果您正在考虑在 RFT 可用时实施它，以下是最重要的内容：

现在开始组织您的数据。RFT 的成功在很大程度上取决于拥有结构良好的示例和明确的评估标准。开始记录您组织内的专家决策及其推理。
思考哪些特定的任务将从 AI 协助中受益最多。RFT 的最佳应用不是关于替换人类专业知识 – 它们是关于在高度特定的上下文中放大它。

高级 AI 能力的民主化可能会改变组织处理复杂技术挑战的方式。小型研究实验室可能会开发专门的分析工具。精品律师事务所可能会创建自定义的法律研究助手。随着每个新实施，可能性不断扩大。

接下来是什么？

OpenAI 的研究计划目前正在接受希望帮助塑造该技术发展的组织。对于那些希望站在前沿的人来说，这个早期访问期提供了一个独特的机会来影响 RFT 的演变。

在接下来的几年里，可能会带来对技术的改进、新用例和越来越复杂的实施。我们才刚刚开始理解当您将深厚的专业知识与 AI 的模式识别能力结合时会发生什么。

记住：使 RFT真正革命性的不是它的技术复杂性 – 而是它如何开启组织创建真正理解其特定领域的AI系统的新可能性。

Unite.AI