人工智能
开发者障碍降低,OpenAI 简化了 AI 代理创建
OpenAI最近发布了一套新的开发者工具,旨在使创建能够独立执行复杂任务的AI代理变得更容易。上周宣布的更新引入了响应API、开源代理SDK以及内置的Web搜索、文件搜索和计算机控制工具——所有这些都是为了简化AI系统与现实世界信息和应用程序的交互而设计的。
OpenAI将这些代理描述为“代表用户独立完成任务的系统”,这意味着它们可以执行多步骤的过程——例如研究一个主题或更新数据库——并且需要最少的人类指导。该公司的目标是降低开发者和企业部署强大的AI驱动助手的门槛,从而扩大高级AI功能的可访问性。
响应API:简化代理交互
OpenAI的公告核心是新的响应API,它作为构建AI代理的统一接口。该API结合了OpenAI的聊天完成API的对话能力和其之前的助手API的工具使用功能。在实际应用中,这意味着单个API调用现在可以处理涉及调用各种工具或知识源的复杂、多步骤任务。
OpenAI表示,响应API的设计目的是通过减少自定义代码和提示调整的需要来简化代理开发。“响应API的设计是为了让开发者能够轻松地将OpenAI模型和内置工具集成到他们的应用程序中,而无需多个API或外部供应商的复杂性,”该公司在其公告博客文章中解释道。以前,开发者经常需要编排多个API调用并制作复杂的提示才能让AI代理做一些有用的工作,这是一个具有挑战性和耗时的过程。有了新的API,代理可以举例来说,进行与用户的对话,通过Web搜索查找信息,然后写一个摘要——所有这些都在一个工作流中。
值得注意的是,响应API对所有开发者开放,不需要额外的费用,仅需支付标准的使用费。它也是向后兼容的:OpenAI确认将继续支持其流行的聊天完成API用于简单的用例,而较旧的助手API将在2026年中期被淘汰,因为其功能将被整合到响应API中。
开源代理SDK简化工作流编排
发布还包括代理SDK,一套用于管理一个或多个交互AI代理工作流的工具。值得注意的是,OpenAI将此SDK开源,使开发者和企业能够检查代码,甚至将非OpenAI模型集成到他们的代理系统中。这一灵活性意味着一家公司可以协调一个使用OpenAI的GPT-4的代理,以及使用不同AI模型的另一个代理,都在同一个框架中。
代理SDK专注于工作流编排——基本上,跟踪代理正在做什么以及如何将任务移交给他人。它提供了内置机制,例如:
- 可配置代理:使用预定义的角色或特定任务的指令设置AI代理。
- 智能移交:根据上下文在多个代理或进程之间传递任务(例如,一个代理收集数据,另一个代理分析它)。
- 安全护栏:确保代理保持在某些界限内,具有输入验证和内容审核工具,以防止不想要的输出。
- 跟踪和可观察性:监视和调试代理操作的工具,帮助开发者了解决策并提高性能。
根据OpenAI的说法,该工具包可以简化复杂的用例,例如客户支持机器人、多步骤研究助手、内容生成工作流、代码审查代理或销售线索自动化。通过开源SDK,OpenAI也鼓励社区贡献和在企业环境中采用,在那里透明度和自托管组件的能力往往很重要。早期采用者,包括Coinbase和Box这样的公司,已经尝试使用代理SDK来构建AI驱动的研究和数据提取工具。
https://www.youtube.com/watch?v=hciNKcLwSes&t=244s
内置工具增强AI功能
为了使AI代理更加功能齐全,OpenAI的响应API带有三个内置工具,用于连接AI到外部数据和操作。这些工具显著扩展了代理可以执行的操作,超出了简单的文本生成。
发布时可用的内置工具是:
- Web搜索:允许AI代理执行实时Web搜索并检索最新信息,包括引用来源。这意味着代理可以使用最新的新闻或事实来回答问题,并提供参考以保证透明度。该工具对于构建需要实时信息的代理(如研究助手、购物指南或旅行计划)非常有用。
- 文件搜索:让代理快速浏览开发者提供的大型文档或数据集合,以找到相关信息。基本上,这是一个私人知识库查询工具——代理可以使用它来回答客户支持问题,方法是查找政策文件,或协助法律研究,方法是检索文件库中的段落。该工具可以在需要引用专有信息的场景中部署,例如客户服务机器人或内部公司助手。
- 计算机使用:一个新功能(目前处于研究预览阶段),它允许AI代理像人类用户操作计算机一样执行计算机上的操作。由OpenAI的计算机使用代理(CUA)模型提供支持,该工具将AI的意图转换为键盘和鼠标操作,以导航软件、网站或其他数字界面。从本质上讲,它实现了不容易通过API访问的任务的自动化,例如将数据输入到旧系统中,通过Web应用程序进行测试,或在图形界面上检查信息。
通过集成这些工具,AI代理不仅可以思考问题,还可以采取行动——无论是搜索信息、检索特定数据还是操作数字环境。这种方式大大扩展了代理的功能,并使其对实际应用更加有用。
OpenAI设想开发者将根据需要组合这些工具;例如,代理可能使用Web搜索来收集公共信息,使用文件搜索来提取内部数据,然后使用这些综合知识来草拟一份报告或执行任务。所有这些都可以通过响应API以统一的方式编排,而无需单独的服务或手动集成。
对AI采用和可访问性的更广泛影响
分析师表示,这次发布可能会通过降低技术障碍来加速各行业对AI代理的采用。对于企业来说,这些新工具的吸引力在于能够在没有大量自定义开发的情况下自动化和扩展流程。
诸如信息检索、表格处理或跨应用程序数据输入等常规任务——这些任务可能需要大量编码或多个软件系统——现在可以通过OpenAI的构建块来处理AI代理。内置的搜索工具允许公司几乎瞬间将AI连接到其知识数据库或Web上,计算机使用工具提供了一种与没有API的旧应用程序交互的方法。同时,代理SDK的开源性为企业提供了更多的控制权,允许它们将这些AI代理集成到现有的基础设施中,甚至可以根据需要使用不同的AI模型。
OpenAI的举动是赋予开发者代理构建能力的竞争的一部分。竞争对手科技公司和初创公司一直在推出自己的AI代理平台,而OpenAI的综合工具包可能有助于其脱颖而出。事实上,时机恰逢全球对自治AI代理的兴趣激增——例如,中国初创公司Monica最近因其代理Manus而引起了关注,声称它可以在某些任务中超越OpenAI自己的原型代理。通过开源其平台的关键部分并提供内置工具,OpenAI似乎是在响应竞争压力,同时也促进了AI的更广泛采用。
从可访问性方面来看,这些工具可以使任何人都能构建高级AI系统。较小的公司,甚至个人开发者,现在可能发现创建AI驱动的助手或工作流变得可行,而无需大型研究团队。集成方法(其中一个API调用可以处理多个步骤)以及OpenAI文档中的示例的可用性降低了新手的入门门槛。OpenAI还为开发者提供了一个可观察性界面来跟踪和检查代理正在做什么,这对于调试和建立对AI输出的信任至关重要。这种对可用性和安全性的关注(具有安全护栏和监控)预计将鼓励更多企业尝试AI代理,知道他们有监督和控制权。
AI代理可能会像拥有互联网存在一样变得普遍和必不可少。OpenAI的最新工具通过使代理开发更加易于接近,可能会使这一愿景成为现实,使得更广泛的开发者和组织社区能够构建自己的代理。
