关注我们.

人工智能

OpenAI o3 和 o4‑mini 内部:通过多模态推理和集成工具集释放新的可能性

mm

16 年 2025 月 XNUMX 日,OpenAI 发布 OpenAI 推出了其高级推理模型的升级版本。这些新模型分别名为 o3 和 o4-mini,在其前身 o1 和 o3-mini 的基础上进行了改进。最新模型性能更佳,新增功能丰富,可访问性更强。本文将探讨 o3 和 o4-mini 的主要优势,概述其主要功能,并探讨它们可能如何影响人工智能应用的未来。但在深入探讨 o3 和 o4-mini 的独特之处之前,我们有必要了解 OpenAI 模型的演变历程。首先,让我们简要回顾一下 OpenAI 在开发日益强大的语言和推理系统方面的历程。

OpenAI 大型语言模型的演进

OpenAI 的大型语言模型开发始于 GPT-2GPT-3,这使得 ChatGPT 因其能够生成流畅且上下文准确的文本而成为主流。这些模型被广泛应用于摘要、翻译和问答等任务。然而,随着用户将它们应用于更复杂的场景,它们的缺点逐渐显现。这些模型在需要深度推理、逻辑一致性和多步骤问题解决的任务中往往举步维艰。为了应对这些挑战,OpenAI 引入了 GPT-4并将重点转向增强其模型的推理能力。这一转变导致了 o1o3-迷你两种模型都采用了一种名为“思路链提示”的方法,通过逐步推理,能够生成更具逻辑性和准确性的答案。o1 专为高级问题解决需求而设计,而 o3-mini 则旨在以更高效、更经济的方式提供类似的功能。在此基础上,OpenAI 现已推出 o3 和 o4-mini,进一步增强了其 LLM 的推理能力。这些模型旨在生成更准确、更周全的答案,尤其是在编程、数学和科学分析等逻辑精度至关重要的技术领域。在下一节中,我们将探讨 o3 和 o4-mini 如何改进其前代产品。

o3 和 o4-mini 的关键改进

增强推理能力

o3 和 o4-mini 的一项关键改进是增强了对复杂任务的推理能力。与之前能够快速响应的模型不同,o3 和 o4-mini 模型需要更多时间来处理每个提示。这种额外的处理使它们能够更彻底地推理并得出更准确的答案,从而提升了基准测试的结果。例如,o3 的表现优于 o1 9% on LiveBench.ai这项基准测试旨在评估逻辑、数学和代码等多项复杂任务的性能。在测试软件工程任务推理能力的 SWE-bench 上,o3 的得分为 69.1%甚至优于竞争模型,例如 双子座2.5专业版, 得分 63.8%同时,o4-mini 在相同基准测试中的得分为 68.1%,以低得多的成本提供几乎相同的推理深度。

多模态整合:用图像思考

o3 和 o4-mini 最具创新性的功能之一是其“用图像思考”的能力。这意味着它们不仅可以处理文本信息,还能将视觉数据直接融入推理过程。它们能够理解和分析图像,即使是质量较差的图像,例如手写笔记、草图或图表。例如,用户可以上传一个复杂系统的图表,模型可以对其进行分析,识别潜在问题,甚至提出改进建议。这种能力弥合了文本数据和视觉数据之间的差距,使与人工智能的交互更加直观和全面。这两种模型都可以执行放大细节或旋转图像等操作,以便更好地理解图像。这种多模态推理能力相较于像 o1 这样的前辈(主要基于文本)而言是一项重大进步。它为教育等领域的应用开辟了新的可能性,在这些领域,视觉辅助至关重要;而研究领域,图表通常是理解的关键。

高级工具使用

o3 和 o4-mini 是首批同时使用 ChatGPT 所有可用工具的 OpenAI 模型。这些工具包括:

  • 网页浏览:允许模型获取时间敏感查询的最新信息。
  • Python 代码执行:使它们能够执行复杂的计算或数据分析。
  • 图像处理和生成:增强处理视觉数据的能力。

通过使用这些工具,o3 和 o4-mini 可以更有效地解决复杂的多步骤问题。例如,如果用户提出一个需要当前数据的问题,模型可以执行网络搜索来检索最新信息。同样,对于涉及数据分析的任务,它可以执行 Python 代码来处理数据。这种集成是迈向更自主的 AI 代理的重要一步,这些代理可以在没有人工干预的情况下处理更广泛的任务。引入 Codex CLI, 轻量级、开源编码代理,可与 o3 和 o4-mini 配合使用,进一步增强其对开发人员的实用性。

含义和新的可能性

o3和o4-mini的发布对各行各业都有广泛的影响:

  • 教育背景:这些模型可以通过提供详细的解释和可视化辅助工具来协助学生和老师,使学习更具互动性和效率。例如,学生可以上传数学问题的草图,模型可以提供分步解答。
  • 研究:他们可以通过分析复杂的数据集、生成假设以及解释图表和图解等视觉数据来加速发现,这对于物理学或生物学等领域来说是无价的。
  • 产业应用:他们可以通过处理文本和视觉查询(例如分析产品设计或解决技术问题)来优化流程、改进决策并增强客户互动。
  • 创意与媒体: 作者可以使用这些模型将章节大纲转化为简单的故事板。音乐家将视觉效果与旋律相匹配。电影剪辑师可以收到节奏建议。建筑师将手绘的平面图转换成包含结构和可持续性说明的详细3D蓝图。
  • 可访问性和包容性: 对于盲人用户,这些模型可以详细描述图像。对于聋人用户,它们可以将图表转换为视觉序列或带字幕的文本。它们对文字和视觉效果的翻译有助于弥合语言和文化差异。
  • 走向自主代理: 由于这些模型可以在一个工作流程中浏览网页、运行代码和处理图像,它们构成了自主代理的基础。开发人员描述功能;模型编写、测试和部署代码。知识工作者可以将数据收集、分析、可视化和报告撰写委托给单个AI助手。

局限性和下一步

尽管取得了这些进展,o3 和 o4-mini 的知识截止日期仍为 2023 年 XNUMX 月,这限制了它们响应最新事件或技术的能力,除非借助网页浏览进行补充。未来的迭代可能会通过改进实时数据提取来弥补这一差距。

我们还可以期待自主人工智能代理(能够在最低限度监督下持续规划、推理、行动和学习的系统)取得进一步进展。OpenAI 对工具、推理模型和实时数据访问的整合,标志着我们正在接近这样的系统。

底线

OpenAI 的新模型 o3 和 o4-mini 在推理、多模态理解和工具集成方面均有所改进。它们更加准确、功能更丰富,并且在从分析复杂数据、生成代码到解读图像等各种任务中都更具实用性。这些进步有望显著提高生产力,并加速各行各业的创新。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。