AI 工具 101
超越ChatGPT;AI代理:一个新型的劳动力世界

随着深度学习、自然语言处理(NLP)和AI的进步,我们正处于一个AI代理可能成为全球劳动力的一部分重要时期。这些AI代理,超越了聊天机器人和语音助手,正在为各个行业和我们的日常生活塑造一个新的范式。但是,生活在一个由这些“工人”增强的世界中到底意味着什么?本文深入探讨了这个不断演变的格局,评估了潜在的影响、潜力和前方的挑战。
AI工人演变的简要回顾
在了解即将到来的革命之前,认识到已经发生的AI驱动的演变至关重要。
- 传统计算系统:从基本的计算算法开始,这些系统可以使用一套固定的规则来解决预定义的任务。
- 聊天机器人和早期语音助手:随着技术的进步,我们的接口也在演变。像Siri、Cortana和早期聊天机器人这样的工具简化了用户与AI的交互,但其理解和能力有限。
- 神经网络和深度学习:神经网络标志着一个转折点,模仿人类大脑的功能并通过经验演变。深度学习技术进一步增强了这一点,实现了复杂的图像和语音识别。
- 变压器和高级NLP模型:变压器架构的引入革命了NLP领域。像ChatGPT这样的系统,由OpenAI、BERT和T5启用,实现了人类与AI之间的突破性交流。凭借其对语言和上下文的深刻理解,这些模型可以进行有意义的对话、撰写内容和以前所未有的准确性回答复杂问题。
进入AI代理:不仅仅是一次对话
今天的AI格局暗示着一些比对话工具更广泛的东西。AI代理,不仅仅是聊天功能,还可以执行任务、从环境中学习、做出决定,甚至展现创造力。它们不仅仅是在回答问题;它们正在解决问题。
传统的软件模型遵循一个清晰的路径。利益相关者向软件经理表达一个目标,然后设计一个具体的计划。工程师通过代码执行这个计划。这种“遗产范式”的软件功能是清晰的,涉及大量的人类干预。
AI代理则不同。一个代理:
- 有它试图实现的目标。
- 可以与其环境进行交互。
- 根据这些观察结果制定一个计划来实现其目标。
- 采取必要的行动,并根据环境的状态变化调整其方法。
真正区分AI代理和传统模型的是它们能够自主创建一个分步计划来实现目标。从本质上讲,虽然程序员以前提供计划,但今天的AI代理自己规划自己的路线。
考虑一个日常例子。在传统的软件设计中,一个程序将根据预定义的条件提醒用户有关过期任务。开发人员将根据产品经理提供的规格设置这些条件。
在AI代理范式中,代理本身决定何时和如何通知用户。它衡量环境(用户的习惯、应用程序状态),并决定最佳行动方案。因此,过程变得更加动态,更加及时。
ChatGPT通过集成插件标志着其传统用途的转变,从而允许它利用外部工具执行多个请求。它成为代理概念的早期体现。如果我们考虑一个简单的例子:用户询问纽约市的天气,ChatGPT利用插件可以与外部天气API交互,解释数据,甚至根据收到的响应进行课程更正。
AI代理,包括Auto-GPT、AgentGPT和BabyAGI,正在引领一个新的AI宇宙时代。虽然ChatGPT通过需要人类输入来推广生成AI,但AI代理背后的愿景是使AI能够独立运行,朝着目标前进,几乎不需要人类干预。这种转型潜力得到了Auto-GPT的快速崛起的强调,在其诞生仅六周内就在GitHub上获得了超过107,000个星标,这是一个前所未有的增长速度,与像“pandas”这样的成熟项目相比。
AI代理与ChatGPT
许多高级AI代理,例如Auto-GPT和BabyAGI,利用GPT架构。它们的主要重点是尽量减少人类干预以完成AI任务。像“GPT循环”这样的描述性术语描述了AgentGPT和BabyAGI等模型的运行。它们以迭代循环运行,以更好地理解用户请求并完善其输出。与此同时,Auto-GPT通过整合互联网访问和代码执行能力进一步突破了界限,大大扩展了其问题解决范围。
AI代理的创新
- 长期记忆:传统的LLM具有有限的记忆,只保留最近的交互段。对于综合任务,回忆整个对话甚至之前的对话变得至关重要。为了克服这一点,AI代理采用了嵌入工作流,将文本对话转换为数字数组,提供了对记忆约束的解决方案。
- 网页浏览能力:为了保持对最新事件的更新,Auto-GPT配备了浏览功能,使用Google搜索API。这在AI社区中引发了关于AI知识范围的辩论。
- 运行代码:超越代码生成,Auto-GPT可以执行shell和Python代码。这一前所未有的能力使其能够与其他软件交互,从而扩大了其操作领域。
该图可视化了由大型语言模型和代理人驱动的AI系统的架构。
- 输入:系统从多种来源接收数据:直接用户命令、结构化数据库、网页内容和实时环境传感器。
- LLM和代理人:在核心,LLM处理这些输入,与专用代理人(如
Auto-GPT用于思维链、AgentGPT用于特定于网络的任务、BabyAGI用于特定于任务的操作和HuggingGPT用于团队处理)合作。 - 输出:一旦处理完毕,信息就会转换为用户友好的格式,然后传递给可以对外部环境采取行动或施加影响的设备。
- 内存组件:系统通过短期缓存和长期数据库以暂时和永久的方式保留信息。
- 环境:这是外部领域,它影响传感器并受到系统操作的影响。
高级AI代理:Auto-GPT、BabyAGI等
AutoGPT和AgentGPT
AutoGPT,一个于2023年3月在GitHub上发布的天才Python应用程序,利用GPT的力量,GPT是OpenAI的变革性生成模型。区分Auto-GPT和其前辈的是其自治性——它旨在以最少的人类指导执行任务,并具有自主启动提示的独特能力。用户只需定义一个总体目标,Auto-GPT就会创建必要的提示来实现该目标,使其成为朝着真正的人工通用智能(AGI)迈出的一步潜在的革命性进步。
凭借从互联网连接、内存管理到使用GPT-3.5的文件存储等一系列功能,这个工具能够处理从传统任务(如撰写电子邮件)到通常需要大量人类参与的复杂任务的广泛任务。
另一方面,AgentGPT,也建立在GPT框架上,是一个面向用户的界面,无需广泛的编码专业知识即可设置和使用。AgentGPT允许用户定义AI目标,然后将其分解为可管理的任务。
此外,AgentGPT以其多功能性而突出。它不仅仅局限于创建聊天机器人。该平台扩展了其功能,创建了多种应用程序,例如Discord机器人,并且与Auto-GPT实现了无缝集成。这种方法确保即使那些没有广泛编码背景的人也可以执行诸如完全自治编码、文本生成、语言翻译和问题解决等任务。
LangChain是一个框架,它连接大型语言模型(LLM)与各种工具,并利用代理人(通常被视为“机器人”)来确定和执行特定任务,方法是选择合适的工具。这些代理人与外部资源无缝集成,而LangChain中的向量数据库存储非结构化数据,促进了LLM的快速信息检索。
BabyAGI
然后,有BabyAGI,这是一个简化但强大的代理人。要了解BabyAGI的能力,可以想象一个数字项目经理,它自主地创建、组织和执行任务,专注于给定的目标。虽然大多数AI驱动的平台都受到预训练知识的限制,但BabyAGI以其适应和从经验中学习的能力而突出。它具有辨别反馈和像人类一样根据试错进行决策的深刻能力。
值得注意的是,BabyAGI的根本优势不仅在于其适应性,还在于其在特定领域(如加密货币交易、机器人技术和自动驾驶)运行代码以实现特定目标的能力。它在复杂领域中表现出色,使其成为多种应用中的多功能工具。

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/
该过程可以分为三个代理:
- 执行代理:系统的核心,该代理利用OpenAI的API处理任务。给定一个目标和任务,它会向OpenAI的API发出提示并检索任务结果。
- 任务创建代理:此功能根据先前的结果和当前目标创建新任务。向OpenAI的API发送提示,然后返回潜在任务,组织成字典列表。
- 任务优先级代理:最后阶段涉及根据优先级排序任务。该代理使用OpenAI的API重新排序任务,以确保最关键的任务首先执行。
BabyAGI与OpenAI的语言模型合作,利用Pinecone的功能来存储和检索上下文中心的任务结果。
以下是使用此链接演示BabyAGI。
要开始,您需要一个有效的OpenAPI密钥。为了方便访问,UI有一个设置部分,您可以在其中输入OpenAPI密钥。此外,如果您想管理成本,请记得限制迭代次数。
配置好应用程序后,我进行了一个小实验。我向BabyAGI发布了一个提示:“创建一个简洁的推特线程,关注个人成长的旅程,触及里程碑、挑战和持续学习的变革力量。”
BabyAGI以一个周密的计划作出回应。这不仅仅是一个通用模板,而是一个全面的路线图,表明底层AI确实理解了请求的细微差别。
Deepnote AI Copilot
Deepnote AI Copilot重新定义了数据探索笔记本的动态。它有什么独特之处?
在其核心,Deepnote AI旨在增强数据科学家的工作流程。您提供一个基本的指令,AI就会立即行动起来,制定策略、执行SQL查询、使用Python可视化数据,并以精确的方式呈现其发现。
Deepnote AI的一个优势是其对工作空间的全面理解。通过了解集成架构和文件系统,它完美地将其执行计划与组织背景相符,确保其洞察力始终相关。
AI与笔记本媒体的集成创建了一个独特的反馈循环。它积极评估代码输出,使其擅长自我纠正,并确保结果符合设定的目标。
Deepnote AI以其透明的操作而突出,提供对其流程的清晰洞察。代码和输出的交织确保其操作始终可解释且可复制。
CAMEL
CAMEL是一个旨在促进AI代理之间合作以高效完成任务的框架。
它将其操作分为两种主要的代理类型:
- AI用户代理概述指令。
- AI助手代理根据提供的指令执行任务。
CAMEL的一个目标是解开AI思维过程的复杂性,旨在优化多个代理之间的协同作用。具有角色扮演和创始提示等功能,它确保AI任务与人类目标完美同步。
西部世界模拟:给AI注入生命
受Unity软件等灵感的启发,并使用Python进行改编,西部世界模拟是模拟和优化多个AI代理交互的环境的一大飞跃,几乎像一个数字社会。
这些代理不仅仅是数字实体。它们模拟可信的人类行为,从日常例行事务到复杂的社会交往。它们的架构扩展了一个大型语言模型来存储经验、反思经验并利用经验进行动态行为规划。
西部世界模拟的交互式沙盒环境,让人联想到《模拟市民》,使一个由生成代理居住的城镇变得生动。用户可以与这些代理交互、观察并引导它们度过一天,观察到出现的行为和复杂的社会动态。
西部世界模拟体现了计算能力和人类般的复杂性的和谐融合。通过将大型语言模型与动态代理模拟相结合,它为打造与现实几乎无法区分的AI体验铺平了道路。
结论
AI代理可以非常多才多艺,并正在塑造行业、改变工作流程并实现曾经似乎不可能的壮举。但是,像所有开创性的创新一样,它们并非完美无缺。
虽然它们有能力重塑我们的数字存在的基本结构,但这些代理仍然面临着某些挑战,其中一些是固有的人类挑战,例如在细致入微的场景中理解上下文或处理超出其训练数据集的问题。
在下一篇文章中,我们将更深入地探讨Auto-GPT和GPT Engineer,研究如何设置和使用它们。另外,我们还将探索这些AI代理偶尔失败的原因,例如陷入循环等问题。敬请期待!


















