Líderes de pensamento
Quando a IA Pensar como os Humanos: Explorando a Mente dos LLMs e Agentes

Hoje, os LLMs e agentes aprendem, analisam e tomam decisões de maneiras que podem confundir a linha entre seu “pensamento” algorítmico e a mente humana. As abordagens em que são construídos já imitam nossos processos cognitivos, e a escala de seu treinamento supera a experiência humana por ordens de magnitude. Isso levanta a questão: estamos criando uma ferramenta que expande nossas capacidades, ou estamos dando origem a um novo tipo de mente cujas consequências ainda são impossíveis de prever?
Como os modelos pensam
É importante distinguir entre os conceitos de LLMs e agentes. Para fazer uma analogia com um computador, um LLM pode ser comparado a um de seus componentes, por exemplo, o processador. Um agente, no entanto, é o sistema completo, uma “placa-mãe” à qual vários módulos estão conectados: memória, placa de vídeo e rede. Da mesma forma, um agente é um sistema complexo que pode incorporar um ou mais LLMs, suplementados com mecanismos de tomada de decisão e ferramentas para interagir com o ambiente externo.
Se considerarmos o trabalho de um único LLM, tudo se resume a correspondência de padrões. No entanto, quando um agente encadeia vários LLMs, podemos dizer que “pensa”, embora esse processo ainda seja construído sobre padrões. O agente constrói a lógica de interação entre os modelos: por exemplo, um LLM analisa a tarefa, e com base nessa análise, o agente determina qual ação outro LLM deve realizar.
O pensamento humano funciona de maneira semelhante: nos baseamos em conhecimento acumulado e padrões, os selecionamos no momento certo, processamos e formulamos conclusões. Esse processo é chamado de raciocínio.
O ChatGPT, como um humano, tem dois tipos de memória: curto-prazo e longo-prazo. A diferença é que, nos humanos, o acesso a esses níveis de memória é mais complexo e nem sempre linear.
A memória curto-prazo é a informação com a qual estamos trabalhando agora. Para uma pessoa, pode ser o que você disse cinco minutos atrás: ela pode se lembrar ou não. O GPT, no entanto, sempre leva em conta tudo dentro de sua “janela de contexto” – não pode pular ou ignorar esses dados.
A memória longo-prazo nos humanos consiste em memórias que não estão sempre ativas e podem surgir apenas com gatilhos específicos: uma memória da infância, um trauma ou, por exemplo, trabalhar com um psicólogo. O GPT tem uma lógica semelhante: não “lembra” de informações por conta própria, a menos que seja ativado especificamente. Por exemplo, uma instrução como “Nunca me pergunte isso novamente” ou “Sempre me trate de forma formal” pode ser armazenada na memória longo-prazo e aplicada durante cada sessão.
Outro exemplo de memória longo-prazo são documentos salvos. Suponha que você tenha enviado ao GPT uma instrução para realizar uma pesquisa de marketing. O modelo pode armazená-la na memória, mas isso não significa que irá se referir a esse documento com cada pergunta. Se você perguntar: “Posso usar uma lanterna na Lua?”, o GPT irá ignorar a instrução. Mas se o pedido contém palavras-chave que correspondem ao texto do documento, o modelo pode “lembrar” disso.
Esse mecanismo é implementado por meio de RAG (Geração Aumentada por Recuperação), uma abordagem onde o modelo ganha acesso a informações armazenadas acionadas por sinais relevantes por meio de bancos de dados vetoriais.
Assim, pode-se dizer que o modelo realmente tem memória, mas funciona de acordo com uma lógica mais formalizada, distinta da memória humana.
Por que uma conversa com a IA às vezes parece terapêutica e outras vezes fria e robótica?
Os modelos de linguagem modernos são extremamente grandes: armazenam uma quantidade colossal de dados, conhecimento e contexto. Toda essa informação é organizada em áreas temáticas e semânticas chamadas “clusters”. O modelo foi treinado em fontes diversificadas, que variam de ficção e artigos científicos a comentários do YouTube.
Quando você interage com a IA, sua consulta (prompt) efetivamente direciona o modelo para um determinado cluster.
Por exemplo, se você escreve: “Você é um advogado imobiliário em Nova York com 20 anos de experiência, ajude-me a comprar um apartamento”, o modelo ativa vários clusters ao mesmo tempo: advogado → Nova York → imóveis. Como resultado, você recebe uma resposta coerente, relevante e realista, como se realmente estivesse consultando um profissional experiente.
Se a consulta diz respeito a tópicos mais pessoais ou filosóficos, como auto-desenvolvimento ou emoções, o modelo “muda” para outros clusters, como psicologia, filosofia ou trabalho interno. Nesse caso, suas respostas podem parecer surpreendentemente humanas e até terapêuticas.
No entanto, com frases muito genéricas ou vagas, o modelo se “perde” em sua estrutura de cluster e fornece uma resposta padrão, formal, distante e sem tom emocional.
O estilo e a profundidade da resposta da IA dependem de qual cluster você a direciona com seu prompt.
A filosofia do treinamento de modelos e RLHF
A inteligência artificial tem diferentes abordagens para o aprendizado. Não é tanto uma filosofia quanto uma estratégia.
A opção clássica é o aprendizado supervisionado, onde o modelo é dado uma pergunta e a resposta correta. Ele aprende observando o que é considerado correto e, em seguida, reproduz soluções semelhantes no futuro.
Mas outra abordagem é o RLHF (Aprendizado por Reforço com Feedback Humano). Essa é uma abordagem diferente: o modelo tenta algo, recebe um “prêmio” por ações bem-sucedidas e ajusta seu comportamento. Gradualmente, ele desenvolve uma estratégia eficaz.
O RLHF pode ser comparado ao processo de transformar matéria-prima em um produto acabado. Para criar um modelo que seja conveniente de usar, é necessário um trabalho colossal com feedback humano.
Imagine que eu mostro a você um objeto sem nomeá-lo diretamente. Você hesita: “É um estojo de cigarros? Um porta-cartões?” Eu só dou dicas como: “Mais perto”, “Mais longe”, “60% sim”. Depois de centenas de iterações dessas, você adivinha: “Ah, é uma carteira”.
Os LLMs são treinados dessa maneira. Humanos, anotadores e profissionais em geral avaliam: essa resposta é boa, essa é ruim, e atribuem pontuações. Empresas como Keymakr, que se especializam em anotação e validação de dados de alta qualidade, desempenham um papel fundamental nesse processo. O feedback também vem de usuários comuns: likes, reclamações e reações. O modelo interpreta esses sinais, formando padrões de comportamento.
Como o treinamento de modelos parece na prática
Um exemplo vívido é o experimento da OpenAI treinando agentes usando aprendizado por reforço no jogo “Esconde-esconde”.
Dois times participaram: os “buscadores” (vermelho) e os “escondidos” (azul). As regras eram simples: se um buscador pegar um escondido, ganha um ponto; se não, perde um. Inicialmente, os agentes tinham apenas habilidades físicas básicas, correr e pular, sem estratégias pré-definidas.
No início, os buscadores agiam de forma caótica, e pegar oponentes acontecia por acaso. Mas após milhões de iterações, seu comportamento evoluiu. Os escondidos começaram a usar objetos ao redor para bloquear portas e construir barreiras. Essas habilidades surgiram sem programação direta, puramente por meio de tentativas repetidas e recompensas por sucesso.
Em resposta, os buscadores começaram a usar o salto, uma capacidade disponível desde o início, mas anteriormente ignorada. Após uma série de falhas, o uso aleatório do salto revelou seu valor tático. Então, os escondidos complicaram sua defesa ainda mais, removendo objetos da linha de visão dos buscadores e construindo abrigos mais confiáveis.
O experimento mostrou que, por meio de bilhões de ciclos de tentativa, erro, recompensas e penalidades, um comportamento cooperativo complexo pode se formar sem intervenção do desenvolvedor. Além disso, os agentes começaram a agir em coordenação, mesmo que mecanismos de comunicação não tenham sido programados, simplesmente porque o trabalho em equipe provou ser mais eficaz.
É o mesmo com os grandes modelos de linguagem. É impossível criar scripts para todos os cenários: há muitas situações e muita variabilidade no mundo. Portanto, não ensinamos o modelo regras fixas; ensinamos como aprender.
Esse é o valor do RLHF. Sem ele, um LLM e agentes permanecem apenas uma biblioteca de textos. Com ele, torna-se um parceiro de conversa capaz de se adaptar, corrigir a si mesmo e, essencialmente, evoluir.
O que vem a seguir?
Muitos se perguntam se o desenvolvimento de LLMs e agentes poderia levar a consequências indesejadas ou até perigosas.
É importante entender que o que vemos hoje não é nem mesmo um MVP, mas apenas um protótipo.
A revolução real não será sobre ajudar a escrever uma carta bonita ou traduzi-la para o francês. Essas são coisas menores. A direção principal é a automação de microtarefas e processos rotineiros, deixando os humanos apenas com tarefas verdadeiramente criativas, intelectuais ou tempo para descanso.
As inovações reais estão focadas em agentes, sistemas que podem pensar, agir e tomar decisões independentemente de uma pessoa. É exatamente onde empresas como OpenAI, Google, Meta e outras estão concentrando seus esforços hoje.
Os grandes modelos de linguagem são apenas a base. O futuro real está em agentes treinados para viver em um mundo dinâmico, receber feedback e se adaptar a mudanças.












