Líderes de pensamento

Quando a IA Pensar como os Humanos: Explorando a Mente dos LLMs e Agentes

Published August 21, 2025

Updated April 26, 2026

Michael Abramov, Founder and CEO of Introspector

Hoje, os LLMs e agentes aprendem, analisam e tomam decisões de maneiras que podem confundir a linha entre seu “pensamento” algorítmico e a mente humana. As abordagens em que são construídos já imitam nossos processos cognitivos, e a escala de seu treinamento supera a experiência humana por ordens de magnitude. Isso levanta a questão: estamos criando uma ferramenta que expande nossas capacidades, ou estamos dando origem a um novo tipo de mente cujas consequências ainda são impossíveis de prever?

Como os modelos pensam

É importante distinguir entre os conceitos de LLMs e agentes. Para fazer uma analogia com um computador, um LLM pode ser comparado a um de seus componentes, por exemplo, o processador. Um agente, no entanto, é o sistema completo, uma “placa-mãe” à qual vários módulos estão conectados: memória, placa de vídeo e rede. Da mesma forma, um agente é um sistema complexo que pode incorporar um ou mais LLMs, suplementados com mecanismos de tomada de decisão e ferramentas para interagir com o ambiente externo.

Se considerarmos o trabalho de um único LLM, tudo se resume a correspondência de padrões. No entanto, quando um agente encadeia vários LLMs, podemos dizer que “pensa”, embora esse processo ainda seja construído sobre padrões. O agente constrói a lógica de interação entre os modelos: por exemplo, um LLM analisa a tarefa, e com base nessa análise, o agente determina qual ação outro LLM deve realizar.

O pensamento humano funciona de maneira semelhante: nos baseamos em conhecimento acumulado e padrões, os selecionamos no momento certo, processamos e formulamos conclusões. Esse processo é chamado de raciocínio.

O ChatGPT, como um humano, tem dois tipos de memória: curto-prazo e longo-prazo. A diferença é que, nos humanos, o acesso a esses níveis de memória é mais complexo e nem sempre linear.

A memória curto-prazo é a informação com a qual estamos trabalhando agora. Para uma pessoa, pode ser o que você disse cinco minutos atrás: ela pode se lembrar ou não. O GPT, no entanto, sempre leva em conta tudo dentro de sua “janela de contexto” – não pode pular ou ignorar esses dados.

A memória longo-prazo nos humanos consiste em memórias que não estão sempre ativas e podem surgir apenas com gatilhos específicos: uma memória da infância, um trauma ou, por exemplo, trabalhar com um psicólogo. O GPT tem uma lógica semelhante: não “lembra” de informações por conta própria, a menos que seja ativado especificamente. Por exemplo, uma instrução como “Nunca me pergunte isso novamente” ou “Sempre me trate de forma formal” pode ser armazenada na memória longo-prazo e aplicada durante cada sessão.

Outro exemplo de memória longo-prazo são documentos salvos. Suponha que você tenha enviado ao GPT uma instrução para realizar uma pesquisa de marketing. O modelo pode armazená-la na memória, mas isso não significa que irá se referir a esse documento com cada pergunta. Se você perguntar: “Posso usar uma lanterna na Lua?”, o GPT irá ignorar a instrução. Mas se o pedido contém palavras-chave que correspondem ao texto do documento, o modelo pode “lembrar” disso.

Esse mecanismo é implementado por meio de RAG (Geração Aumentada por Recuperação), uma abordagem onde o modelo ganha acesso a informações armazenadas acionadas por sinais relevantes por meio de bancos de dados vetoriais.

Assim, pode-se dizer que o modelo realmente tem memória, mas funciona de acordo com uma lógica mais formalizada, distinta da memória humana.

Por que uma conversa com a IA às vezes parece terapêutica e outras vezes fria e robótica?

Os modelos de linguagem modernos são extremamente grandes: armazenam uma quantidade colossal de dados, conhecimento e contexto. Toda essa informação é organizada em áreas temáticas e semânticas chamadas “clusters”. O modelo foi treinado em fontes diversificadas, que variam de ficção e artigos científicos a comentários do YouTube.

Quando você interage com a IA, sua consulta (prompt) efetivamente direciona o modelo para um determinado cluster.

Por exemplo, se você escreve: “Você é um advogado imobiliário em Nova York com 20 anos de experiência, ajude-me a comprar um apartamento”, o modelo ativa vários clusters ao mesmo tempo: advogado → Nova York → imóveis. Como resultado, você recebe uma resposta coerente, relevante e realista, como se realmente estivesse consultando um profissional experiente.

Se a consulta diz respeito a tópicos mais pessoais ou filosóficos, como auto-desenvolvimento ou emoções, o modelo “muda” para outros clusters, como psicologia, filosofia ou trabalho interno. Nesse caso, suas respostas podem parecer surpreendentemente humanas e até terapêuticas.

No entanto, com frases muito genéricas ou vagas, o modelo se “perde” em sua estrutura de cluster e fornece uma resposta padrão, formal, distante e sem tom emocional.

O estilo e a profundidade da resposta da IA dependem de qual cluster você a direciona com seu prompt.

A filosofia do treinamento de modelos e RLHF

A inteligência artificial tem diferentes abordagens para o aprendizado. Não é tanto uma filosofia quanto uma estratégia.

A opção clássica é o aprendizado supervisionado, onde o modelo é dado uma pergunta e a resposta correta. Ele aprende observando o que é considerado correto e, em seguida, reproduz soluções semelhantes no futuro.

Mas outra abordagem é o RLHF (Aprendizado por Reforço com Feedback Humano). Essa é uma abordagem diferente: o modelo tenta algo, recebe um “prêmio” por ações bem-sucedidas e ajusta seu comportamento. Gradualmente, ele desenvolve uma estratégia eficaz.

O RLHF pode ser comparado ao processo de transformar matéria-prima em um produto acabado. Para criar um modelo que seja conveniente de usar, é necessário um trabalho colossal com feedback humano.

Imagine que eu mostro a você um objeto sem nomeá-lo diretamente. Você hesita: “É um estojo de cigarros? Um porta-cartões?” Eu só dou dicas como: “Mais perto”, “Mais longe”, “60% sim”. Depois de centenas de iterações dessas, você adivinha: “Ah, é uma carteira”.

Os LLMs são treinados dessa maneira. Humanos, anotadores e profissionais em geral avaliam: essa resposta é boa, essa é ruim, e atribuem pontuações. Empresas como Keymakr, que se especializam em anotação e validação de dados de alta qualidade, desempenham um papel fundamental nesse processo. O feedback também vem de usuários comuns: likes, reclamações e reações. O modelo interpreta esses sinais, formando padrões de comportamento.

Como o treinamento de modelos parece na prática

Um exemplo vívido é o experimento da OpenAI treinando agentes usando aprendizado por reforço no jogo “Esconde-esconde”.

Dois times participaram: os “buscadores” (vermelho) e os “escondidos” (azul). As regras eram simples: se um buscador pegar um escondido, ganha um ponto; se não, perde um. Inicialmente, os agentes tinham apenas habilidades físicas básicas, correr e pular, sem estratégias pré-definidas.

No início, os buscadores agiam de forma caótica, e pegar oponentes acontecia por acaso. Mas após milhões de iterações, seu comportamento evoluiu. Os escondidos começaram a usar objetos ao redor para bloquear portas e construir barreiras. Essas habilidades surgiram sem programação direta, puramente por meio de tentativas repetidas e recompensas por sucesso.

Em resposta, os buscadores começaram a usar o salto, uma capacidade disponível desde o início, mas anteriormente ignorada. Após uma série de falhas, o uso aleatório do salto revelou seu valor tático. Então, os escondidos complicaram sua defesa ainda mais, removendo objetos da linha de visão dos buscadores e construindo abrigos mais confiáveis.

O experimento mostrou que, por meio de bilhões de ciclos de tentativa, erro, recompensas e penalidades, um comportamento cooperativo complexo pode se formar sem intervenção do desenvolvedor. Além disso, os agentes começaram a agir em coordenação, mesmo que mecanismos de comunicação não tenham sido programados, simplesmente porque o trabalho em equipe provou ser mais eficaz.

É o mesmo com os grandes modelos de linguagem. É impossível criar scripts para todos os cenários: há muitas situações e muita variabilidade no mundo. Portanto, não ensinamos o modelo regras fixas; ensinamos como aprender.

Esse é o valor do RLHF. Sem ele, um LLM e agentes permanecem apenas uma biblioteca de textos. Com ele, torna-se um parceiro de conversa capaz de se adaptar, corrigir a si mesmo e, essencialmente, evoluir.

O que vem a seguir?

Muitos se perguntam se o desenvolvimento de LLMs e agentes poderia levar a consequências indesejadas ou até perigosas.

É importante entender que o que vemos hoje não é nem mesmo um MVP, mas apenas um protótipo.

A revolução real não será sobre ajudar a escrever uma carta bonita ou traduzi-la para o francês. Essas são coisas menores. A direção principal é a automação de microtarefas e processos rotineiros, deixando os humanos apenas com tarefas verdadeiramente criativas, intelectuais ou tempo para descanso.

As inovações reais estão focadas em agentes, sistemas que podem pensar, agir e tomar decisões independentemente de uma pessoa. É exatamente onde empresas como OpenAI, Google, Meta e outras estão concentrando seus esforços hoje.

Os grandes modelos de linguagem são apenas a base. O futuro real está em agentes treinados para viver em um mundo dinâmico, receber feedback e se adaptar a mudanças.

Michael Abramov, Founder and CEO of Introspector

Michael Abramov é o fundador e CEO da Introspector, trazendo mais de 15+ anos de experiência em engenharia de software e sistemas de visão computacional de IA para a construção de ferramentas de marcação de nível empresarial.

Michael começou sua carreira como engenheiro de software e gerente de P&D, construindo sistemas de dados escaláveis e gerenciando equipes de engenharia multifuncionais. Até 2025, ele atuou como CEO da Keymakr, uma empresa de serviço de marcação de dados, onde ele pioneirou fluxos de trabalho humanos no loop, sistemas de QA avançados e ferramentas personalizadas para atender às necessidades de dados de visão computacional e autonomia em larga escala.

Ele possui um B.Sc. em Ciência da Computação e uma formação em engenharia e artes criativas, trazendo uma lente multidisciplinar para resolver problemas difíceis. Michael vive na interseção da inovação tecnológica, liderança de produto estratégica e impacto no mundo real, impulsionando a próxima fronteira de sistemas autônomos e automação inteligente.