人工智能工具 101

超越 ChatGPT； AI 代理：工人的新世界

发布时间

9个月前

2023 年 8 月 28 日

随着深度学习、自然语言处理 (NLP) 和人工智能的进步，我们正处于人工智能代理可能成为全球劳动力的重要组成部分的时期。这些人工智能代理超越了聊天机器人和语音助手，正在为行业和我们的日常生活塑造新的范式。但生活在一个由这些“工人”组成的世界中真正意味着什么呢？本文深入探讨了这一不断变化的格局，评估了未来的影响、潜力和挑战。

简要回顾：人工智能工作者的演变

在了解即将到来的革命之前，认识到已经发生的人工智能驱动的演变至关重要。

传统计算系统：从基础计算算法开始，旅程开始了。这些系统可以使用一组固定的规则来解决预定义的任务。
聊天机器人和早期语音助手：随着技术的发展，我们的界面也在不断发展。 Siri、Cortana 和早期聊天机器人等工具简化了用户与人工智能的交互，但理解能力和能力有限。
神经网络与深度学习：神经网络标志着一个转折点，它模仿人类大脑的功能并通过经验不断进化。深度学习技术进一步增强了这一点，实现了复杂的图像和语音识别。
Transformer 和高级 NLP 模型：Transformer 架构的引入彻底改变了 NLP 领域。系统如 ChatGPT OpenAI、BERT 和 T5 实现了人类与人工智能通信的突破。凭借对语言和上下文的深刻掌握，这些模型可以进行有意义的对话、编写内容并以前所未有的准确性回答复杂问题。

输入 AI 代理：不仅仅是对话

今天的人工智能景观暗示着比对话工具更广泛的东西。人工智能代理现在不仅可以执行聊天功能，还可以执行任务、从环境中学习、做出决策，甚至表现出创造力。他们不只是回答问题；他们正在解决问题。

传统软件模型的工作路径清晰。利益相关者向软件经理表达了一个目标，然后软件经理设计了一个具体的计划。工程师将通过代码行来执行该计划。这种软件功能的“遗留范式”非常明确，涉及大量的人工干预。

然而，人工智能代理的运作方式有所不同。代理：

有目标它力求实现。
能够 相互作用 其环境.
制定一个计划基于这些观察来实现其目标。
需要必要的行动, 调整其方法 基于环境变化的状态。

人工智能代理与传统模型的真正区别在于它们能够自主创建逐步计划来实现目标。从本质上讲，早些时候程序员提供了计划，而今天的人工智能代理则制定了他们的路线。

考虑一个日常的例子。在传统的软件设计中，程序会根据预先确定的条件通知用户有关过期任务的信息。开发人员将根据产品经理提供的规范来设置这些条件。

在人工智能代理范例中，代理本身决定何时以及如何通知用户。它评估环境（用户习惯、应用程序状态）并决定最佳行动方案。因此，这个过程变得更加动态、更加即时。

ChatGPT 通过插件集成摆脱了传统用途，从而允许它利用外部工具来执行多个请求。它成为代理概念的早期体现。如果我们考虑一个简单的例子：用户询问纽约市的天气，ChatGPT 利用插件可以与外部天气 API 进行交互，解释数据，甚至根据收到的响应进行路线修正。

人工智能代理的现状

包括 Auto-GPT、AgentGPT 和 BabyAGI 在内的 AI 代理正在预示着广阔的 AI 世界的新时代。当ChatGPT普及时生成式人工智能通过需要人类输入，人工智能代理背后的愿景是使人工智能能够独立运作，在几乎没有人为干扰的情况下实现目标。 Auto-GPT 的迅速崛起突显了这种变革潜力，在推出后短短六周内就在 GitHub 上获得了超过 107,000 颗星，与数据科学包“pandas”等成熟项目相比，这是前所未有的增长。

AI 代理与 ChatGPT

许多先进的人工智能代理，例如 Auto-GPT 和 BabyAGI，都利用 GPT 架构。他们的主要关注点是最大限度地减少人工智能任务完成过程中人工干预的需要。 “循环上的 GPT”等描述性术语描述了 AgentGPT 和 BabyAGI 等模型的操作。它们以迭代周期运行，以更好地理解用户请求并完善其输出。与此同时，Auto-GPT 通过整合互联网访问和代码执行功能进一步突破了界限，显着扩大了其解决问题的范围。

人工智能代理的创新

长期记忆：传统的法学硕士的记忆力有限，仅保留最近的交互片段。对于综合性任务，回忆整个对话甚至之前的对话变得至关重要。为了克服这个问题，人工智能代理采用了嵌入工作流程，将文本对话转换为数字数组，为内存限制提供了解决方案。
网页浏览能力：为了及时了解最新事件，Auto-GPT 已使用 Google 搜索 API 配备了浏览功能。这引起了人工智能社区内关于人工智能知识范围的争论。
运行代码：除了生成代码之外，Auto-GPT 还可以执行 shell 和 Python 代码。这种前所未有的功能使其能够与其他软件交互，从而扩大其操作领域。

该图可视化了由大型语言模型和代理支持的人工智能系统的架构。

输入：系统从不同来源接收数据：直接用户命令、结构化数据库、网络内容和实时环境传感器。
法学硕士及代理人：在核心，法学硕士处理这些输入，与专业代理合作，例如 Auto-GPT 为了思想链， AgentGPT 对于特定于网络的任务， BabyAGI 针对特定任务的行动，以及 HuggingGPT 用于基于团队的处理。
输出：经过处理后，信息将转换为用户友好的格式，然后转发到可以作用或影响外部环境的设备。
内存组件：系统通过短期缓存和长期数据库临时和永久保留信息。
环境：这是外部领域，它影响传感器并受到系统操作的影响。

高级 AI 代理：Auto-GPT、BabyAGI 等

AutoGPT 和 AgentGPT

自动GPT是 2023 年 XNUMX 月在 GitHub 上发布的创意，是一个基于 Python 的巧妙应用程序，利用了 OpenAI 的变革性生成模型 GPT 的强大功能。 Auto-GPT 与其前辈的区别在于它的自主性——它旨在以最少的人工指导来执行任务，并具有独特的自我启动提示的能力。用户只需定义一个总体目标，Auto-GPT 就会精心设计所需的提示来实现该目标，使其成为实现真正的通用人工智能 (AGI) 的潜在革命性飞跃。

该工具具有涵盖互联网连接、内存管理和使用 GPT-3.5 的文件存储功能的功能，擅长处理广泛的任务，从电子邮件撰写等传统任务到通常需要更多人工参与的复杂任务。

另一方面，代理GPT同样基于 GPT 框架构建，是一个以用户为中心的界面，不需要大量的编码专业知识即可设置和使用。 AgentGPT 允许用户定义 AI 目标，然后将其分解为可管理的任务。

代理GPT用户界面

此外，AgentGPT 因其多功能性而脱颖而出。它不仅限于创建聊天机器人。该平台扩展了其功能，可以创建各种应用程序（例如 Discord 机器人），甚至与 Auto-GPT 无缝集成。这种方法确保即使那些没有广泛编码背景的人也可以完成诸如完全自主编码、文本生成、语言翻译和解决问题等任务。

浪链是一个框架，它将大型语言模型 (LLM) 与各种工具联系起来，并利用代理（通常被视为“机器人”）通过选择适当的工具来确定和执行特定任务。这些代理与外部资源无缝集成，而LangChain中的矢量数据库存储非结构化数据，有利于法学硕士的快速信息检索。

宝宝AGI

然后，有宝宝AGI，一个简化但功能强大的代理。要了解 BabyAGI 的功能，请想象一个数字项目经理，可以自主创建、组织和执行任务，并重点关注给定的目标。虽然大多数人工智能驱动的平台都受到其预先训练的知识的限制，但 BabyAGI 因其适应和从经验中学习的能力而脱颖而出。它具有识别反馈的强大能力，并且像人类一样，根据反复试验做出决策。

值得注意的是，BabyAGI 的潜在优势不仅在于其适应性，还在于其针对特定目标运行代码的熟练程度。它在加密货币交易、机器人和自动驾驶等复杂领域大放异彩，使其成为众多应用程序中的多功能工具。

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

该过程可以分为三个代理：

执行代理：该代理是系统的核心，利用 OpenAI 的 API 进行任务处理。给定目标和任务，它会提示 OpenAI 的 API 并检索任务结果。
任务创建代理：此功能根据早期结果和当前目标创建新任务。提示会发送到 OpenAI 的 API，然后返回潜在的任务，并以字典列表的形式组织。
任务优先级代理：最后阶段涉及根据优先级对任务进行排序。该代理使用 OpenAI 的 API 来重新排序任务，确保最关键的任务首先执行。

BabyAGI 与 OpenAI 的语言模型合作，利用 Pinecone 的功能进行以上下文为中心的任务结果存储和检索。

下面是 BabyAGI 使用的演示此链接.

首先，您需要一个有效的 OpenAPI 密钥。为了便于访问，UI 有一个设置部分，可以在其中输入 OpenAPI 密钥。此外，如果您希望管理成本，请记住对迭代次数设置限制。

配置完应用程序后，我做了一个小实验。我向 BabyAGI 发布了一条提示：“撰写一条简洁的推文，重点关注个人成长之旅，涉及里程碑、挑战以及持续学习的变革力量。”

BabyAGI 制定了一个深思熟虑的计划作为回应。它不仅仅是一个通用模板，而是一个全面的路线图，表明底层人工智能确实理解了请求的细微差别。

Deepnote AI 副驾驶

Deepnote AI 副驾驶重塑笔记本中数据探索的动态。但是什么让它与众不同呢？

Deepnote AI 的核心目标是增强数据科学家的工作流程。当您提供基本指令时，人工智能就会立即采取行动，制定策略，执行 SQL 查询，使用 Python 可视化数据，并以清晰的方式呈现其发现。

Deepnote AI 的优势之一是它对您的工作空间的全面掌握。通过了解集成模式和文件系统，它可以将其执行计划与组织环境完美地结合起来，确保其见解始终相关。

人工智能与笔记本媒体的集成创建了一个独特的反馈循环。它积极评估代码输出，使其善于自我纠正并确保结果与既定目标一致。

Deepnote AI 以其透明的操作而脱颖而出，可以提供对其流程的清晰洞察。代码和输出的交织确保其行为始终是可解释的和可重复的。

CAMEL

CAMEL 是一个旨在促进人工智能代理之间协作的框架，旨在以最少的人工监督高效完成任务。

https://github.com/camel-ai/camel

它将其运营分为两种主要代理类型：

AI 用户代理给出指令。
AI Assistant Agent 根据提供的指令执行任务。

CAMEL 的愿望之一是解开人工智能思维过程的复杂性，旨在优化多个智能体之间的协同作用。凭借角色扮演和初始提示等功能，它可确保人工智能任务与人类目标无缝衔接。

西部世界模拟：AI 生活

源自 Unity 软件等灵感并采用 Python 进行改编，西部世界模拟是模拟和优化多个人工智能代理交互环境的飞跃，几乎就像数字社会一样。

生成代理

这些代理不仅仅是数字实体。它们模拟可信的人类行为，从日常生活到复杂的社交互动。他们的架构扩展了一个大型语言模型来存储经验、反思经验并将其用于动态行为规划。

《西部世界》的交互式沙盒环境让人想起《模拟人生》，让一座充满生成智能体的小镇栩栩如生。在这里，用户可以互动、观察和指导这些代理度过一天，观察突发行为和复杂的社会动态。

《西部世界》模拟体现了计算能力与类人复杂性的和谐融合。通过将大量语言模型与动态代理模拟相融合，它开辟了一条打造与现实几乎没有区别的人工智能体验的道路。

结论

人工智能代理的用途非常广泛，它们正在塑造行业，改变工作流程，并实现曾经看似不可能的壮举。但与所有突破性创新一样，它们也并非没有缺陷。

虽然它们有能力重塑我们数字存在的结构，但这些代理仍然在应对某些挑战，其中一些挑战是人类固有的，例如理解微妙场景中的上下文或解决训练数据集之外的问题。

在下一篇文章中，我们将深入研究 AutoGPT 和 GPT Engineer，研究如何设置和使用它们。此外，我们将探讨这些人工智能代理偶尔出现问题的原因，例如陷入循环等问题。所以敬请期待！

下一步

Flick 评论：提高覆盖率的最佳 Instagram 标签工具

不要错过

SaneBox 评论：整理您的电子邮件并提高生产力

阿尤什·米塔尔

在过去的五年里，我一直沉浸在机器学习和深度学习的迷人世界中。我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献，特别关注人工智能/机器学习。我持续的好奇心也吸引了我对自然语言处理的兴趣，这是我渴望进一步探索的领域。

联合人工智能

超越 ChatGPT； AI 代理：工人的新世界

人工智能工具 101

超越 ChatGPT； AI 代理：工人的新世界

目录

简要回顾：人工智能工作者的演变

输入 AI 代理：不仅仅是对话

AI 代理与 ChatGPT

人工智能代理的创新