人工智能
关于 OpenAI 的 Operator 您需要知道的内容

过去几周,OpenAI一直在为其产品奠定基础。虽然大多数用户才刚刚开始探索 ChatGPT 任务 – 一项允许用户安排和触发任务的新功能,但该公司却在为更重要的事情做准备。
昨天发布的 Operator 是人工智能领域发展方向的又一个明确信号:从简单处理信息的模型到能够积极地与我们合作的代理。
每天,我们花费大量时间浏览网站,填写表单,预订服务和管理数字任务。人工智能通常只是在旁观,仅限于提供建议或处理文本。Operator 和其他近期宣布的代理,如 Anthropic 的 Computer Use 和 Google 的 Project Mariner ,彻底改变了这种情况。
这里的技术成就非常显著。OpenAI 创建了一个能够像人类一样看到和与网页界面交互的 AI 。它捕获屏幕截图,理解视觉布局,并决定点击哪里,输入什么以及如何导航。
以下是关于 Operator 代理的内容: 与许多仅限于 API 和专用集成的 AI 工具不同,Operator 与网页的交互方式与您相同。它看到屏幕,理解上下文,并直接采取行动。
更深入地了解 Operator 的实际性能
当 AI 公司发布基准测试结果时,仔细查看这些数字的实际含义非常重要。Operator 的性能在不同的测试环境中呈现出不同的故事。
最令人印象深刻的指标是 Operator 在 WebVoyager 基准测试 中的 87% 成功率。这很重要,因为 WebVoyager 测试的是我们每天使用的真实网站 – 如 Amazon 和 Google Maps 。这不是一个受控的实验室测试,而是在现实世界中的表现。
但是,当我们查看其他基准测试时,我们看到了一幅更细致入微的图景:
- WebArena 基准测试: 58.1% 成功率。测试模拟网站上的任务,如购物和内容管理。这里的较低性能实际上揭示了 AI 代理如何处理结构化和非结构化环境之间的差异。
- OSWorld 基准测试: 38.1% 成功率。该测试评估复杂、多步骤的任务,如从电子邮件中合并 PDF 文件。性能的显著下降表明了 AI 代理当前的局限性,当任务需要多个上下文切换时。
这些数字之所以引人注目,是因为它们反映了人类的学习模式。我们通常在熟悉的现实世界环境中表现更好,而在人工测试场景中表现较差。Operator 在实际网站上表现出色,而在模拟环境中却苦苦挣扎,这表明其训练优先考虑实际实用性而非理论性能。
这些基准测试在浏览器自动化中创造了新的记录,但不同测试中的不同成功率告诉我们关于 OpenAI 策略的重要信息。
思考一下您自己的网络浏览。大多数任务都很直接:填写表单,进行购买,预订预约。这是 Operator 的 87% 成功率的闪光点。更复杂的任务 – 其中性能下降 – 通常是人类监督很有价值的任务。
这些数据表明 OpenAI 正在做出一个刻意的选择:首先完善常见任务,然后逐渐扩展到更复杂的操作。这是一种优先考虑即时实用性的实际方法,而不是理论能力。

AI 代理基准测试 (OpenAI)
OpenAI 的 Operator 背后策略
OpenAI 的 Operator 方法揭示了一个精心策划的策略。
首先,考虑一下时间。最近发布的功能,如 ChatGPT 任务,并不仅仅是添加功能 – 它们是为了让用户为自主代理做好准备。
但真正有趣的是:OpenAI 计划通过 API 公开 CUA 模型。这意味着开发人员将能够创建自己的计算机使用代理。
其影响是重大的:
- 集成潜力
- 直接集成到现有的工作流程中
- 为特定业务需求定制代理
- 行业特定的自动化解决方案
- 未来发展路径
- 扩展到 Plus、Team 和 Enterprise 用户
- 直接集成到 ChatGPT 中
- 地理扩展(尽管由于 监管要求 ,欧洲将需要更长时间)
战略合作伙伴关系也很有启发性。OpenAI 正在尝试创建一个完整的生态系统。他们正在与 DoorDash、Instacart 和 OpenTable 等公司合作,也与 Stockton 市等公共部门组织合作。
这指向了一个未来,AI 代理不仅仅是助手,而是我们与数字系统交互的方式的重要组成部分。
这对您意味着什么
我们正在进入一个阶段,AI 不仅仅是回答问题 – 它正在成为我们数字生活中的积极参与者。
思考一下您每天的在线任务。不是需要您专业知识的复杂、战略性工作,而是重复性的任务。我指的是在多个网站上研究旅行选项,填写标准化表单,从各种网络来源收集数据,并管理常规预订。这是 Operator 最初消除了数字繁琐工作的地方。但这不是它将停止的地方。随着时间的推移,AI 代理将能够完成越来越复杂的工作流程。
早期性能数据也告诉我们一些关键信息:Operator 在常规网络任务中表现出色,成功率为 87% 。早期采用者如果能够有效地将其集成到工作流程中,将拥有显著的生产力优势。
集成时间表揭示了 OpenAI 的谨慎方法。他们首先针对美国的 Pro 用户,然后扩展到 Plus、Team 和 Enterprise 用户,最后直接集成到 ChatGPT 中。
我们正在见证人工智能工具工作方式的根本转变。您应该问自己的真正问题不是是否要适应这种变化,而是如何以战略性的方式做到这一点。技术将会演变,但原则仍然相同:人工智能正在从回答问题转向采取行动。那些早期理解这一转变的人将在塑造这些工具如何集成到工作流程中的过程中拥有显著的优势。












