人工智能工具 101
超越 ChatGPT; AI 代理:工人的新世界

随着深度学习、自然语言处理 (NLP) 和人工智能的进步,我们正处于人工智能代理可能成为全球劳动力的重要组成部分的时期。这些人工智能代理超越了聊天机器人和语音助手,正在为行业和我们的日常生活塑造新的范式。但生活在一个由这些“工人”组成的世界中真正意味着什么呢?本文深入探讨了这一不断变化的格局,评估了未来的影响、潜力和挑战。
简要回顾:人工智能工作者的演变
在了解即将到来的革命之前,认识到已经发生的人工智能驱动的变革至关重要。
- 传统计算系统:从基础计算算法开始,旅程开始了。 这些系统可以使用一组固定的规则来解决预定义的任务。
- 聊天机器人和早期语音助手:随着技术的发展,我们的界面也在不断发展。 Siri、Cortana 和早期聊天机器人等工具简化了用户与人工智能的交互,但理解能力和能力有限。
- 神经网络与深度学习:神经网络标志着一个转折点,它模仿人类大脑的功能并通过经验不断进化。 深度学习技术进一步增强了这一点,实现了复杂的图像和语音识别。
- Transformer 和高级 NLP 模型:Transformer 架构的引入彻底改变了 NLP 领域。 系统如 ChatGPT OpenAI、BERT 和 T5 实现了人类与人工智能通信的突破。 凭借对语言和上下文的深刻掌握,这些模型可以进行有意义的对话、编写内容并以前所未有的准确性回答复杂问题。
输入 AI 代理:不仅仅是对话
今天的 人工智能景观 暗示着比对话工具更广泛的东西。 人工智能代理现在不仅可以执行聊天功能,还可以执行任务、从环境中学习、做出决策,甚至表现出创造力。 他们不只是回答问题; 他们正在解决问题。
传统的软件模型遵循清晰的路径。利益相关者向软件经理表达目标,然后软件经理制定具体的计划。工程师通过一行行代码执行该计划。这种软件功能的“遗留范式”非常明确,需要大量的人工干预。
然而,人工智能代理的运作方式有所不同。 代理:
- 有 目标 它力求实现。
- 能够 相互作用 其 环境.
- 制定一个 计划 基于这些观察来实现其目标。
- 需要必要的 行动, 调整其方法 根据环境的变化状态。
AI 代理与传统模型的真正区别在于,它们能够自主制定逐步实现目标的计划。本质上,早期的计划是由程序员提供的,而如今的 AI 代理则自行规划路线。
考虑一个日常的例子。 在传统的软件设计中,程序会根据预先确定的条件通知用户有关过期任务的信息。 开发人员将根据产品经理提供的规范来设置这些条件。
在人工智能代理范式中,代理本身会决定何时以及如何通知用户。它会评估环境(用户的习惯、应用程序状态)并决定最佳行动方案。因此,整个过程变得更加动态,更加实时。
ChatGPT 打破了传统使用方式,集成了插件,从而能够利用外部工具执行多个请求。它成为了代理概念的早期体现。举一个简单的例子:一个用户查询纽约市的天气,ChatGPT 利用插件可以与外部天气 API 交互,解读数据,甚至根据收到的回复进行调整。
包括 Auto-GPT、AgentGPT 和 BabyAGI 在内的 AI 代理正在预示着广阔的 AI 世界的新时代。 当ChatGPT普及时 生成式人工智能 通过引入人工输入,人工智能代理背后的愿景是让人工智能能够独立运作,在几乎无需人工干预的情况下朝着目标前进。Auto-GPT 的迅猛发展凸显了这一变革潜力,它在推出仅六周内就在 GitHub 上获得了超过 107,000 万颗星,与数据科学软件包“pandas”等成熟项目相比,这是一个前所未有的增长。
AI 代理与 ChatGPT
许多先进的人工智能代理,例如 Auto-GPT 和 BabyAGI,都利用 GPT 架构。 他们的主要关注点是最大限度地减少人工智能任务完成过程中人工干预的需要。 “循环上的 GPT”等描述性术语描述了 AgentGPT 和 BabyAGI 等模型的操作。 它们以迭代周期运行,以更好地理解用户请求并完善其输出。 与此同时,Auto-GPT 通过整合互联网访问和代码执行功能进一步突破了界限,显着扩大了其解决问题的范围。
人工智能代理的创新
- 长期记忆:传统的法学硕士的记忆力有限,仅保留最近的交互片段。 对于综合性任务,回忆整个对话甚至之前的对话变得至关重要。 为了克服这个问题,人工智能代理采用了嵌入工作流程,将文本对话转换为数字数组,为内存限制提供了解决方案。
- 网页浏览能力:为了及时了解最新动态,Auto-GPT 已配备使用 Google 搜索 API 的浏览功能。这在 AI 社区内引发了关于 AI 知识范围的争论。
- 运行代码:除了生成代码之外,Auto-GPT 还可以执行 shell 和 Python 代码。 这种前所未有的功能使其能够与其他软件交互,从而扩大其操作领域。
该图可视化了由大型语言模型和代理支持的人工智能系统的架构。
- 输入:系统从不同来源接收数据:直接用户命令、结构化数据库、网络内容和实时环境传感器。
- 法学硕士及代理人:在核心,法学硕士处理这些输入,与专业代理合作,例如
Auto-GPT为了思想链,AgentGPT对于特定于网络的任务,BabyAGI针对特定任务的行动,以及HuggingGPT用于基于团队的处理。 - 输出:经过处理后,信息将转换为用户友好的格式,然后转发到可以作用或影响外部环境的设备。
- 内存组件:系统通过短期缓存和长期数据库临时和永久保留信息。
- 环境:这是外部领域,它会影响传感器并受到系统操作的影响。
高级 AI 代理:Auto-GPT、BabyAGI 等
AutoGPT 和 AgentGPT
自动GPTAuto-GPT 是 2023 年 XNUMX 月在 GitHub 上发布的创意成果,它是一款基于 Python 的巧妙应用程序,充分利用了 OpenAI 的变革性生成模型 GPT 的强大功能。Auto-GPT 与前代产品的区别在于其自主性——它旨在在极少的人工指导下执行任务,并具有独特的自主启动提示的能力。用户只需定义一个总体目标,Auto-GPT 就会精心设计所需的提示来实现该目标,这使其成为迈向真正的通用人工智能 (AGI) 的革命性飞跃。
该工具具有涵盖互联网连接、内存管理和使用 GPT-3.5 的文件存储功能的功能,擅长处理广泛的任务,从电子邮件撰写等传统任务到通常需要更多人工参与的复杂任务。
另一方面, 代理GPT同样基于 GPT 框架构建,它是一个以用户为中心的界面,无需丰富的编程专业知识即可设置和使用。AgentGPT 允许用户定义 AI 目标,然后将其分解为可管理的任务。
此外,AgentGPT 的多功能性也使其脱颖而出。它不仅限于创建聊天机器人。该平台扩展了其功能,可以创建 Discord 机器人等各种应用程序,甚至可以与 Auto-GPT 无缝集成。这种方法确保即使没有丰富编码背景的人也能完成完全自主的编码、文本生成、语言翻译和问题解决等任务。
浪链 LangChain 是一个将大型语言模型 (LLM) 与各种工具连接起来的框架,并利用代理(通常被称为“机器人”)选择合适的工具来确定并执行特定任务。这些代理与外部资源无缝集成,而 LangChain 中的向量数据库存储非结构化数据,方便 LLM 快速检索信息。
宝宝AGI
接下来是 BabyAGI,一个简化却强大的智能体。为了理解 BabyAGI 的功能,我们可以想象一下一位数字项目经理,他能够自主创建、组织和执行任务,并专注于既定目标。大多数人工智能平台都受限于预先训练的知识,而 BabyAGI 则以其适应和从经验中学习的能力脱颖而出。它拥有强大的反馈识别能力,并且像人类一样,基于反复试验做出决策。
值得注意的是,BabyAGI 的根本优势不仅在于其适应性,还在于其能够高效地针对特定目标运行代码。它在加密货币交易、机器人技术和自动驾驶等复杂领域表现出色,使其成为众多应用中的多功能工具。

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/
该过程可以分为三个代理:
- 执行代理:作为系统的核心,该代理利用 OpenAI 的 API 进行任务处理。给定一个目标和任务,它会调用 OpenAI 的 API 并检索任务结果。
- 任务创建代理:此功能根据早期结果和当前目标创建新任务。 提示会发送到 OpenAI 的 API,然后返回潜在的任务,并以字典列表的形式组织。
- 任务优先级代理:最后阶段涉及根据优先级对任务进行排序。 该代理使用 OpenAI 的 API 来重新排序任务,确保最关键的任务首先执行。
BabyAGI 与 OpenAI 的语言模型合作,利用 Pinecone 的功能进行以上下文为中心的任务结果存储和检索。
下面是 BabyAGI 使用的演示 链接.
首先,您需要一个有效的 OpenAPI 密钥。为了方便访问,用户界面 (UI) 中有一个设置部分,您可以在其中输入 OpenAPI 密钥。此外,如果您想控制成本,请记得设置迭代次数的限制。
配置完应用程序后,我做了一个小实验。 我向 BabyAGI 发布了一条提示:“撰写一条简洁的推文,重点关注个人成长之旅,涉及里程碑、挑战以及持续学习的变革力量。”
BabyAGI 给出了一个深思熟虑的计划。它不仅仅是一个通用的模板,而是一个全面的路线图,表明底层 AI 确实理解了请求的细微差别。
Deepnote AI 副驾驶
Deepnote AI 副驾驶 重塑笔记本中数据探索的动态。 但是什么让它与众不同呢?
Deepnote AI 的核心目标是增强数据科学家的工作流程。 当您提供基本指令时,人工智能就会立即采取行动,制定策略,执行 SQL 查询,使用 Python 可视化数据,并以清晰的方式呈现其发现。
Deepnote AI 的优势之一是它能够全面掌握您的工作空间。通过理解集成模式和文件系统,它可以将其执行计划与组织环境完美匹配,确保其洞察始终具有相关性。
人工智能与笔记本媒体的集成创建了一个独特的反馈循环。 它积极评估代码输出,使其善于自我纠正并确保结果与既定目标一致。
Deepnote AI 以其透明的操作而脱颖而出,可以提供对其流程的清晰洞察。 代码和输出的交织确保其行为始终是可解释的和可重复的。
CAMEL
CAMEL 是一个旨在促进人工智能代理之间协作的框架,旨在以最少的人工监督高效完成任务。
它将其运营分为两种主要代理类型:
- AI 用户代理给出指令。
- AI Assistant Agent 根据提供的指令执行任务。
CAMEL 的愿景之一是解开 AI 思维过程的复杂性,旨在优化多个智能体之间的协同作用。通过角色扮演和初始提示等功能,CAMEL 确保 AI 任务与人类目标无缝衔接。
西部世界模拟:AI 生活
源自 Unity 软件等灵感并采用 Python 进行改编, 西部世界模拟 是模拟和优化多个人工智能代理交互环境的飞跃,几乎就像数字社会一样。
这些代理不仅仅是数字实体。它们模拟可信的人类行为,从日常活动到复杂的社交互动。它们的架构扩展了一个大型语言模型,用于存储经验、反思经验,并利用这些经验进行动态行为规划。
《西部世界》的互动沙盒环境令人联想起《模拟人生》,它生动地展现了一座由生成智能体组成的小镇。在这里,用户可以与这些智能体互动、观察它们,并引导它们度过一天,观察它们涌现的行为和复杂的社交动态。
《西部世界》模拟体现了计算能力与类人复杂性的和谐融合。 通过将大量语言模型与动态代理模拟相融合,它开辟了一条打造与现实几乎没有区别的人工智能体验的道路。
结语
AI 代理功能极其丰富,它们正在重塑行业、改变工作流程,并实现曾经看似不可能的壮举。但与所有突破性创新一样,它们并非完美无缺。
虽然它们有能力重塑我们数字存在的结构,但这些代理仍然在应对某些挑战,其中一些挑战是人类固有的,例如理解微妙场景中的上下文或解决训练数据集之外的问题。
在下一篇文章中,我们将深入研究 AutoGPT 和 GPT Engineer,研究如何设置和使用它们。 此外,我们将探讨这些人工智能代理偶尔出现问题的原因,例如陷入循环等问题。 所以敬请期待!


















