AI 工具 101

超越ChatGPT；AI代理：一个新的工人世界

发布于 2023年8月28日

更新于 2026年5月23日

作者

Aayush Mittal Mittal

随着深度学习、自然语言处理（NLP）和人工智能的进步，我们正处于一个AI代理可能成为全球劳动力重要组成部分的时代。这些AI代理，超越聊天机器人和语音助手，正在为行业和我们的日常生活创造一个新的范式。但是，生活在一个由这些“工人”增强的世界中到底意味着什么？本文深入探讨了这一不断演变的格局，评估了潜在的影响、潜力和前方的挑战。

AI工人演变的简要回顾

在了解即将到来的革命之前，认识到已经发生的AI驱动的演变至关重要。

传统计算系统：从基本的计算算法开始，这段旅程已经启动。这些系统可以使用一套固定的规则来解决预定义的任务。
聊天机器人和早期语音助手：随着技术的进步，我们的接口也随之演变。像Siri、Cortana和早期聊天机器人这样的工具简化了用户与AI的交互，但其理解和能力有限。
神经网络和深度学习：神经网络标志着一个转折点，模仿人类大脑的功能并通过经验演变。深度学习技术进一步增强了这一点，实现了复杂的图像和语音识别。
变换器和高级NLP模型：变换器架构的引入革命了NLP领域。像OpenAI的ChatGPT、BERT和T5这样的系统使得人类与AI的交流取得了突破。凭借其对语言和语境的深刻理解，这些模型可以进行有意义的对话、撰写内容和以前所未有的准确性回答复杂问题。

进入AI代理：不仅仅是对话

今天的AI格局暗示着一些比对话工具更广泛的东西。AI代理，不仅仅是聊天功能，还可以执行任务、从环境中学习、做出决定，甚至表现出创造力。它们不仅仅是回答问题；它们正在解决问题。

传统的软件模型遵循明确的路径。利益相关者向软件经理表达目标，软件经理然后设计一个特定的计划。工程师通过代码行来执行这个计划。这种“遗留范式”的软件功能是明确的，涉及大量的人类干预。

AI代理然而，运作方式不同。一个代理：

有它试图实现的目标。
可以与其环境交互。
根据这些观察结果制定计划以实现其目标。
采取必要的行动，并根据环境的不断变化的状态调整其方法。

真正区分AI代理和传统模型的是它们能够自主创建一步一步的计划来实现目标。从本质上讲，虽然早期程序员提供了计划，但现在的AI代理正在绘制自己的路线。

考虑一个日常例子。在传统的软件设计中，一个程序会根据预定义的条件提醒用户有关过期任务。开发人员会根据产品经理提供的规格设置这些条件。

在AI代理范式中，代理本身决定何时和如何通知用户。它衡量环境（用户的习惯、应用程序状态）并决定最佳行动方案。因此，过程变得更加动态，更加及时。

ChatGPT通过集成插件标志着其传统用途的转变，使其能够利用外部工具执行多个请求。它成为代理概念的早期体现。如果我们考虑一个简单的例子：用户询问纽约市的天气，ChatGPT利用插件，可以与外部天气API交互，解释数据，甚至根据收到的回复进行课程更正。

当前的AI代理格局

AI代理，包括Auto-GPT、AgentGPT和BabyAGI，正在引领一个新的AI时代。虽然ChatGPT通过需要人类输入来推广生成AI，但AI代理背后的愿景是使AI能够独立运行，朝着目标前进，并且几乎没有人类干预。这种转型潜力得到了Auto-GPT的快速崛起的强调，在GitHub上仅六周内就获得了超过107,000个星标，这是一个前所未有的增长速度，甚至超过了像数据科学包“pandas”这样的成熟项目。

AI代理与ChatGPT

许多高级AI代理，例如Auto-GPT和BabyAGI，利用GPT架构。它们的主要重点是尽量减少人类干预在AI任务完成中的必要性。像“GPT循环”这样的描述性术语描述了像AgentGPT和BabyAGI这样的模型的操作。它们以迭代循环运行，以更好地理解用户请求并完善其输出。同时，Auto-GPT通过整合互联网访问和代码执行能力，将其问题解决范围大大扩展。

AI代理的创新

长期记忆：传统的LLM具有有限的记忆，只保留最近的交互部分。对于综合任务，回忆整个对话甚至以前的对话变得至关重要。为了克服这一点，AI代理采用了嵌入工作流，将文本对话转换为数字数组，提供了对记忆约束的解决方案。
网页浏览能力：为了保持对最新事件的更新，Auto-GPT配备了浏览功能，使用Google搜索API。这在AI社区内引发了关于AI知识范围的辩论。
运行代码：除了生成代码外，Auto-GPT还可以执行shell和Python代码。这一前所未有的能力使其能够与其他软件交互，从而扩大了其操作范围。

该图可视化了由大型语言模型和代理驱动的AI系统的架构。

输入：系统从多种来源接收数据：直接的用户命令、结构化数据库、网页内容和实时环境传感器。
LLM和代理：在核心，LLM处理这些输入，与专门的代理（如Auto-GPT用于思维链、AgentGPT用于网页特定任务、BabyAGI用于任务特定操作和HuggingGPT用于团队处理）合作。
输出：一旦处理，信息就会被转换成用户友好的格式，然后被传递给可以执行或影响外部环境的设备。
内存组件：系统通过短期缓存和长期数据库来保留信息，无论是临时的还是永久的。
环境：这是外部领域，它影响传感器并受到系统行为的影响。

高级AI代理：Auto-GPT、BabyAGI等

AutoGPT和AgentGPT

AutoGPT，于2023年3月在GitHub上发布，是一个利用GPT（OpenAI的变革性生成模型）力量的Python应用。AutoGPT与其前辈的区别在于其自主性——它旨在以最少的人类指导执行任务，并具有自主启动提示的独特能力。用户只需要定义一个总体目标，AutoGPT就会创建必要的提示来实现该目标，使其成为真正的人工通用智能（AGI）的一项潜在革命性进步。

凭借其功能，包括互联网连接、内存管理和使用GPT-3.5的文件存储能力，这个工具能够处理广泛的任务，从传统的电子邮件撰写到需要大量人类参与的复杂任务。

另一方面，AgentGPT，也建立在GPT框架上，是一个用户中心的界面，不需要广泛的编码专业知识来设置和使用。AgentGPT允许用户定义AI目标，然后将其分解为可管理的任务。

AgentGPT UI

此外，AgentGPT以其多功能性而突出。它不仅仅局限于创建聊天机器人。该平台扩展了其功能，创建了多种应用程序，例如Discord机器人，并且可以与Auto-GPT无缝集成。这种方法确保即使那些没有广泛编码背景的人也可以执行诸如完全自动化编码、文本生成、语言翻译和问题解决等任务。

LangChain是一个框架，它连接大型语言模型（LLM）与各种工具，并利用代理（通常被视为“机器人”）来确定和执行特定任务，方法是选择合适的工具。这些代理与外部资源无缝集成，而LangChain中的向量数据库存储非结构化数据，促进了LLM的快速信息检索。

BabyAGI

然后，有BabyAGI，这是一个简化但强大的代理。要了解BabyAGI的能力，想象一个数字项目经理，它自主地创建、组织和执行任务，专注于给定的目标。虽然大多数AI驱动的平台都受到其预训练知识的限制，但BabyAGI以其适应和从经验中学习的能力而突出。它具有辨别反馈和根据试验和错误做出决策的深刻能力。

值得注意的是，BabyAGI的根本优势不仅在于其适应性，还在于其运行代码以实现特定目标的专业知识。它在复杂领域（如加密货币交易、机器人技术和自动驾驶）中表现出色，使其成为众多应用中的多功能工具。

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

该过程可以分为三个代理：

执行代理：系统的核心，该代理利用OpenAI的API进行任务处理。给定一个目标和任务，它会向OpenAI的API发送提示并检索任务结果。
任务创建代理：该功能根据以前的结果和当前目标创建新任务。向OpenAI的API发送提示，然后返回一个任务列表，组织为字典列表。
任务优先级代理：最后阶段涉及根据优先级顺序任务。该代理使用OpenAI的API重新排序任务，以确保最关键的任务首先执行。

与OpenAI的语言模型合作，BabyAGI利用Pinecone的功能来存储和检索上下文相关的任务结果。

以下是使用此链接的BabyAGI演示。

要开始，您需要一个有效的OpenAPI密钥。为了方便访问，UI有一个设置部分，您可以在那里输入OpenAPI密钥。另外，如果您想管理成本，请记住设置迭代次数的限制。

一旦我配置了应用程序，我进行了一个小实验。我向BabyAGI发布了一个提示：“创建一个简洁的推特线程，专注于个人成长的旅程，涉及里程碑、挑战和持续学习的转化力量。”

BabyAGI以一个周密的计划作出回应。这不仅仅是一个通用模板，而是一个全面路线图，表明底层AI确实理解了请求的细微差别。

Deepnote AI Copilot

Deepnote AI Copilot重新定义了数据探索在笔记本中的动态。但是什么让它与众不同？

在其核心，Deepnote AI旨在增强数据科学家的工作流程。只要您提供一个基本的指令，AI就会立即行动，制定策略，执行SQL查询，使用Python可视化数据，并以清晰的方式呈现其发现。

Deepnote AI的一个优势是其对工作空间的全面理解。通过了解集成模式和文件系统，它将其执行计划完美地与组织背景相符，确保其洞察力始终相关。

AI与笔记本媒体的集成创建了一个独特的反馈循环。它积极评估代码输出，使其擅长自我纠正，并确保结果符合设定的目标。

Deepnote AI以其透明的操作而突出，提供了对其流程的清晰洞察。代码和输出的交织确保其行为始终可解释且可复制。

CAMEL

CAMEL是一个旨在促进AI代理之间合作以高效完成任务的框架，尽量减少人类监督。

https://github.com/camel-ai/camel

它将其操作分为两种主要的代理类型：

AI用户代理制定指令。
AI助手代理根据提供的指令执行任务。

CAMEL的一个目标是解开AI思维过程的复杂性，旨在优化多个代理之间的协同作用。凭借角色扮演和起始提示等功能，它确保AI任务与人类目标完美同步。

西部世界模拟：生命进入AI

从Unity软件启发并在Python中改编，西部世界模拟是模拟和优化多个AI代理交互的环境的飞跃，几乎像一个数字社会。

生成代理

这些代理不仅仅是数字实体。它们模拟可信的人类行为，从日常例行到复杂的社会交互。它们的体系结构扩展了大型语言模型以存储经验，反思它们，并利用它们进行动态行为规划。

西部世界的交互式沙盒环境，让人联想到《模拟人生》，使一个城镇充满了生成代理。这里，用户可以与这些代理交互、观察并指导它们度过一天，观察到出现的行为和复杂的社会动态。

西部世界模拟体现了计算能力和人类般的复杂性的和谐融合。通过将大型语言模型与动态代理模拟相结合，它为创造几乎与现实无法区分的AI体验开辟了一条道路。

结论

AI代理可以非常多功能，并且正在塑造行业、改变工作流程并实现以前似乎不可能的壮举。但是，像所有开创性的创新一样，它们并非完美无缺。

虽然它们有能力重塑我们数字存在的基本结构，但这些代理仍然面临着某些挑战，其中一些是固有的人类挑战，例如在细致入微的场景中理解语境或处理超出其训练数据集的内容。

在下一篇文章中，我们将更深入地探讨AutoGPT和GPT Engineer，研究如何设置和使用它们。另外，我们还将探讨这些AI代理偶尔会出现的原因，例如陷入循环等问题。所以请继续关注！

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI