Ferramentas de IA 101

Além do ChatGPT: AI Agent – Um Novo Mundo de Trabalhadores

Publicado em 28 de agosto de 2023

Atualizado em 23 de maio de 2026

Por

Aayush Mittal Mittal

Com os avanços no aprendizado profundo, processamento de linguagem natural (NLP) e IA, estamos em um período em que os agentes de IA podem formar uma parte significativa da força de trabalho global. Esses agentes de IA, que transcendem chatbots e assistentes de voz, estão moldando um novo paradigma para indústrias e nossas vidas diárias. Mas o que significa realmente viver em um mundo aumentado por esses “trabalhadores”? Este artigo mergulha profundamente nesse cenário em evolução, avaliando as implicações, o potencial e os desafios que se aproximam.

Um Resumo Breve: A Evolução dos Trabalhadores de IA

Antes de entender a revolução iminente, é crucial reconhecer a evolução impulsionada por IA que já ocorreu.

Sistemas de Computação Tradicionais: A jornada começou com algoritmos de computação básicos. Esses sistemas podiam resolver tarefas pré-definidas usando um conjunto fixo de regras.
Chatbots e Assistente de Voz Inicial: À medida que a tecnologia evoluiu, também evoluíram nossas interfaces. Ferramentas como Siri, Cortana e chatbots iniciais simplificaram a interação usuário-IA, mas tinham compreensão e capacidade limitadas.
Redes Neurais e Aprendizado Profundo: As redes neurais marcaram um ponto de inflexão, imitando funções do cérebro humano e evoluindo com a experiência. Técnicas de aprendizado profundo aprimoraram isso, permitindo reconhecimento de imagem e fala sofisticados.
Transformers e Modelos de NLP Avançados: A introdução de arquiteturas de transformadores revolucionou o cenário de NLP. Sistemas como ChatGPT da OpenAI, BERT e T5 permitiram avanços na comunicação humano-IA. Com sua profunda compreensão da linguagem e do contexto, esses modelos podem manter conversas significativas, criar conteúdo e responder a perguntas complexas com precisão sem precedentes.

Entre com o Agente de IA: Mais do que apenas uma Conversa

Hoje, o cenário de IA está sugerindo algo mais amplo do que ferramentas de conversa. Os agentes de IA, além de funções de chat, agora podem realizar tarefas, aprender com seus ambientes, tomar decisões e até exibir criatividade. Eles não estão apenas respondendo perguntas; estão resolvendo problemas.

Os modelos de software tradicionais funcionavam em um caminho claro. Stakeholders expressavam um objetivo para os gerentes de software, que então projetavam um plano específico. Engenheiros executavam esse plano por meio de linhas de código. Esse paradigma de funcionalidade de software era claro, envolvendo muitas intervenções humanas.

Os agentes de IA, no entanto, operam de forma diferente. Um agente:

Tem objetivos que busca alcançar.
Pode interagir com seu ambiente.
Formula um plano com base nessas observações para alcançar seu objetivo.
Toma ações necessárias, ajustando sua abordagem com base no estado cambiante do ambiente.

O que verdadeiramente distingue os agentes de IA dos modelos tradicionais é sua capacidade de criar autonomamente um plano passo a passo para realizar um objetivo. Em essência, enquanto anteriormente o programador fornecia o plano, os agentes de IA atuais traçam seu próprio curso.

Considere um exemplo do dia a dia. No design de software tradicional, um programa notificaria os usuários sobre tarefas atrasadas com base em condições pré-definidas. Os desenvolvedores definiriam essas condições com base em especificações fornecidas pelo gerente de produto.

No paradigma do agente de IA, o agente em si determina quando e como notificar o usuário. Ele avalia o ambiente (hábitos do usuário, estado do aplicativo) e decide o melhor curso de ação. O processo, portanto, se torna mais dinâmico, mais no momento.

O ChatGPT marcou uma mudança em seu uso tradicional com a integração de plugins, permitindo que ele utilizasse ferramentas externas para realizar múltiplos pedidos. Ele se tornou uma manifestação inicial do conceito de agente. Se considerarmos um exemplo simples: um usuário perguntando sobre o clima de Nova York, o ChatGPT, utilizando plugins, poderia interagir com uma API de clima externa, interpretar os dados e até corrigir o curso com base nas respostas recebidas.

Cenário Atual dos Agentes de IA

Os agentes de IA, incluindo Auto-GPT, AgentGPT e BabyAGI, estão anunciando uma nova era no vasto universo de IA. Enquanto o ChatGPT popularizou a IA Geradora exigindo entrada humana, a visão por trás dos agentes de IA é permitir que as IAs funcionem de forma independente, direcionando-se a objetivos com pouca ou nenhuma interferência humana. Esse potencial transformador foi sublinhado pelo rápido crescimento do Auto-GPT, que alcançou mais de 107.000 estrelas no GitHub em apenas seis semanas após seu início, um crescimento sem precedentes em comparação com projetos estabelecidos como o pacote de ciência de dados ‘pandas’.

Agentes de IA vs. ChatGPT

Muitos agentes de IA avançados, como Auto-GPT e BabyAGI, utilizam a arquitetura GPT. Seu foco principal é minimizar a necessidade de intervenção humana na conclusão de tarefas de IA. Termos descritivos como “GPT em loop” caracterizam a operação de modelos como AgentGPT e BabyAGI. Eles operam em ciclos iterativos para melhor entender os pedidos do usuário e refinar suas saídas. Enquanto isso, o Auto-GPT impulsiona os limites ainda mais, incorporando acesso à internet e capacidades de execução de código, ampliando significativamente seu alcance de resolução de problemas.

Inovações nos Agentes de IA

Memória de Longo Prazo: Os LLMs tradicionais têm memória limitada, restringindo-se apenas aos segmentos recentes de interações. Para tarefas abrangentes, lembrar a conversa inteira ou até mesmo conversas anteriores se torna crucial. Para superar isso, os agentes de IA adotaram fluxos de trabalho de incorporação, convertendo conversas textuais em matrizes numéricas, oferecendo uma solução para as restrições de memória.
Habilidades de Navegação na Web: Para se manter atualizado com eventos recentes, o Auto-GPT foi equipado com capacidades de navegação, utilizando a API do Google Search. Isso levantou debates dentro da comunidade de IA sobre o escopo do conhecimento de uma IA.
Execução de Código: Além de gerar código, o Auto-GPT pode executar códigos shell e Python. Essa capacidade sem precedentes permite que ele interfira com outros softwares, ampliando seu domínio operacional.

O diagrama visualiza a arquitetura de um sistema de IA impulsionado por um Modelo de Linguagem Grande e Agentes.

Entradas: O sistema recebe dados de fontes diversificadas: comandos diretos do usuário, bancos de dados estruturados, conteúdo da web e sensores ambientais em tempo real.
LLM & Agentes: No núcleo, o LLM processa essas entradas, colaborando com agentes especializados como Auto-GPT para encadeamento de pensamentos, AgentGPT para tarefas específicas da web, BabyAGI para ações de tarefas específicas e HuggingGPT para processamento em equipe.
Saídas: Uma vez processadas, as informações são transformadas em um formato amigável ao usuário e então transmitidas para dispositivos que podem agir sobre ou influenciar o ambiente externo.
Componentes de Memória: O sistema retém informações, tanto em bases temporárias quanto permanentes, por meio de caches de curto prazo e bancos de dados de longo prazo.
Ambiente: Este é o reino externo, que afeta os sensores e é impactado pelas ações do sistema.

Agentes de IA Avançados: Auto-GPT, BabyAGI e mais

AutoGPT e AgentGPT

Auto-GPT, uma criação lançada no GitHub em março de 2023, é uma aplicação em Python que aproveita o poder do GPT, o modelo gerador transformador da OpenAI. O que distingue o Auto-GPT de seus antecessores é sua autonomia – ele é projetado para realizar tarefas com orientação humana mínima e tem a capacidade única de iniciar prompts por si mesmo. Os usuários simplesmente precisam definir um objetivo abrangente, e o Auto-GPT cria os prompts necessários para alcançar esse fim, tornando-o um salto potencialmente revolucionário em direção à verdadeira inteligência artificial geral (IAG).

Com recursos que abrangem conectividade com a internet, gerenciamento de memória e capacidades de armazenamento de arquivos usando o GPT-3.5, essa ferramenta é capaz de lidar com uma ampla gama de tarefas, desde as convencionais, como a composição de e-mails, até tarefas intricadas que normalmente exigiriam muito mais envolvimento humano.

Por outro lado, AgentGPT, também construído na estrutura GPT, é uma interface centrada no usuário que não exige expertise extensa em codificação para configuração e uso. O AgentGPT permite que os usuários definam objetivos de IA, que ele então divide em tarefas gerenciáveis.

Interface do AgentGPT

Além disso, o AgentGPT se destaca por sua versatilidade. Ele não está limitado à criação de chatbots. A plataforma estende suas capacidades para criar aplicações diversificadas, como bots do Discord, e integra-se perfeitamente com o Auto-GPT. Essa abordagem garante que mesmo aqueles sem um amplo conhecimento em codificação possam realizar tarefas como codificação totalmente autônoma, geração de texto, tradução de idiomas e resolução de problemas.

LangChain é um framework que conecta Modelos de Linguagem Grande (LLMs) com várias ferramentas e utiliza agentes, frequentemente percebidos como ‘Bots’, para determinar e executar tarefas específicas, escolhendo a ferramenta apropriada. Esses agentes se integram perfeitamente com recursos externos, enquanto um banco de dados de vetores no LangChain armazena dados não estruturados, facilitando a recuperação rápida de informações para os LLMs.

BabyAGI

Em seguida, há o BabyAGI, um agente simplificado, mas poderoso. Para entender as capacidades do BabyAGI, imagine um gerente de projetos digitais que cria, organiza e executa tarefas de forma autônoma, com foco aguçado nos objetivos dados. Enquanto a maioria das plataformas impulsionadas por IA está limitada por seu conhecimento pré-treinado, o BabyAGI se destaca por sua capacidade de se adaptar e aprender com as experiências. Ele tem uma profunda capacidade de discernir feedback e, como os humanos, basear decisões em tentativa e erro.

Notavelmente, a força subjacente do BabyAGI não é apenas sua adaptabilidade, mas também sua proficiência em executar códigos para objetivos específicos. Ele brilha em domínios complexos, como negociação de criptomoedas, robótica e condução autônoma, tornando-o uma ferramenta versátil em uma miríade de aplicações.

Agente Autônomo Orientado a Tarefas do BabyAGI

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

O processo pode ser categorizado em três agentes:

Agente de Execução: O coração do sistema, esse agente aproveita a API da OpenAI para processamento de tarefas. Dado um objetivo e uma tarefa, ele envia um prompt para a API da OpenAI e recupera os resultados da tarefa.
Agente de Criação de Tarefas: Essa função cria novas tarefas com base nos resultados anteriores e nos objetivos atuais. Um prompt é enviado para a API da OpenAI, que então retorna tarefas potenciais, organizadas como uma lista de dicionários.
Agente de Priorização de Tarefas: A fase final envolve a sequência das tarefas com base na prioridade. Esse agente usa a API da OpenAI para reordenar as tarefas, garantindo que as mais críticas sejam executadas primeiro.

Em colaboração com o modelo de linguagem da OpenAI, o BabyAGI aproveita as capacidades do Pinecone para armazenamento e recuperação de resultados de tarefas centrados no contexto.

Abaixo está uma demonstração do BabyAGI usando este link.

Para começar, você precisará de uma chave de API da OpenAPI válida. Para facilitar o acesso, a interface do usuário tem uma seção de configurações onde a chave da API da OpenAPI pode ser inserida. Além disso, se você estiver procurando gerenciar custos, lembre-se de definir um limite para o número de iterações.

Uma vez configurado o aplicativo, fiz um pequeno experimento. Enviei um prompt para o BabyAGI: “Crie uma thread de tweets concisa sobre a jornada de crescimento pessoal, tocando em marcos, desafios e o poder transformador do aprendizado contínuo.”

O BabyAGI respondeu com um plano bem pensado. Não foi apenas um modelo genérico, mas um mapa detalhado que indicou que a IA subjacente realmente entendeu as nuances do pedido.

Copiloto de IA do Deepnote

Deepnote AI Copilot redefine a dinâmica da exploração de dados em notebooks. Mas o que o distingue?

Em seu núcleo, o Deepnote AI visa aumentar o fluxo de trabalho dos cientistas de dados. No momento em que você fornece uma instrução rudimentar, a IA entra em ação, elaborando estratégias, executando consultas SQL, visualizando dados com Python e apresentando suas descobertas de forma articulada.

Uma das forças do Deepnote AI é sua compreensão abrangente do seu espaço de trabalho. Ao entender esquemas de integração e sistemas de arquivos, ele alinha seus planos de execução perfeitamente com o contexto organizacional, garantindo que suas percepções sejam sempre relevantes.

A integração da IA com meios de notebook cria um loop de feedback único. Ela avalia ativamente as saídas de código, tornando-a apta para autocorreção e garantindo que os resultados sejam consistentes com os objetivos estabelecidos.

O Deepnote AI se destaca por suas operações transparentes, fornecendo insights claros sobre seus processos. A interconexão de código e saídas garante que suas ações sejam sempre responsáveis e reproduzíveis.

CAMEL

CAMEL é um framework que busca promover a colaboração entre agentes de IA, visando a conclusão eficiente de tarefas com supervisão humana mínima.

https://github.com/camel-ai/camel

Ele divide suas operações em dois principais tipos de agentes:

O Agente de Usuário de IA define as instruções.
O Agente Assistente de IA executa tarefas com base nas diretrizes fornecidas.

Uma das aspirações do CAMEL é desvendar as complexidades dos processos de pensamento da IA, visando otimizar as sinergias entre vários agentes. Com recursos como role-playing e prompting de iniciação, ele garante que as tarefas de IA se alinhem perfeitamente com os objetivos humanos.

Simulação Westworld: Vida em IA

Derivada de inspirações como o software Unity e adaptada em Python, a simulação Westworld é um salto na simulação e otimização de ambientes onde múltiplos agentes de IA interagem, quase como uma sociedade digital.

Agentes Geradores

Esses agentes não são apenas entidades digitais. Eles simulam comportamentos humanos convincentes, desde rotinas diárias até interações sociais complexas. Sua arquitetura estende um modelo de linguagem grande para armazenar experiências, refletir sobre elas e empregá-las para planejamento de comportamento dinâmico.

A simulação Westworld, com seu ambiente interativo de caixa de areia, traz à vida uma cidade habitada por agentes geradores. Aqui, os usuários podem interagir, observar e guiar esses agentes em seu dia, observando comportamentos emergentes e dinâmicas sociais complexas.

A simulação Westworld exemplifica a fusão harmoniosa de poder computacional e nuances humanas. Ao combinar vastos modelos de linguagem com simulações de agentes dinâmicos, ela traça um caminho em direção à criação de experiências de IA que são indistinguíveis da realidade.

Conclusão

Os agentes de IA podem ser incrivelmente versáteis e estão moldando indústrias, alterando fluxos de trabalho e possibilitando feitos que antes pareciam impossíveis. Mas, como todas as inovações revolucionárias, eles não estão isentos de imperfeições.

Embora eles tenham o poder de redefinir a própria essência de nossa existência digital, esses agentes ainda lutam com certos desafios, alguns dos quais são inerentemente humanos, como entender contexto em cenários nuances ou lidar com questões que ficam fora de seus conjuntos de dados treinados.

No próximo artigo, mergulharemos mais fundo no AutoGPT e no Engenheiro GPT, examinando como configurá-los e usá-los. Além disso, exploraremos os motivos pelos quais esses agentes de IA ocasionalmente falham, como ficar presos em loops, entre outros problemas. Então, fique atento!

Aayush Mittal, Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contínua também me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.

Unite.AI