Inteligência artificial
Quão bons são os agentes de IA em pesquisa real? Relatório do Deep Research Bench

As modelos de linguagem grande (LLMs) evoluem rapidamente, assim como sua promessa como assistentes de pesquisa poderosos. Cada vez mais, eles não estão apenas respondendo a perguntas factuais simples — eles estão lidando com tarefas de "pesquisa aprofundada", que envolvem raciocínio em várias etapas, avaliação de informações conflitantes, obtenção de dados de toda a web e sua síntese em um resultado coerente.
Essa capacidade emergente está sendo comercializada sob diferentes marcas por grandes laboratórios — a OpenAI a chama de "Pesquisa Profunda", a Anthropic a chama de "Pensamento Estendido", a Gemini, do Google, oferece os recursos "Pesquisa + Pro" e a Perplexity os rotula como "Pesquisa Pro" ou "Pesquisa Profunda". Mas quão eficazes são essas ofertas na prática? Um novo relatório da Busca do Futuro, Com o título Deep Research Bench (DRB): Avaliação de Agentes de Pesquisa Web, oferece a avaliação mais rigorosa até o momento — e os resultados revelam capacidades impressionantes e deficiências críticas.
O que é o Deep Research Bench?
Criado pela equipe do FutureSearch, o Deep Research Bench é um benchmark meticulosamente construído para avaliar o desempenho de agentes de IA em tarefas de pesquisa multietapas baseadas na web. Não se trata de perguntas simples com respostas diretas — elas refletem os desafios complexos e abertos enfrentados por analistas, formuladores de políticas e pesquisadores em cenários do mundo real.
O benchmark inclui 89 tarefas distintas em 8 categorias, como:
- Encontrar número: por exemplo, “Quantos recalls de dispositivos médicos Classe II da FDA ocorreram?”
- Validar reivindicação: por exemplo, “O ChatGPT consome 10 vezes mais energia do que a Pesquisa Google?”
- Compilar conjunto de dados: por exemplo, “Tendências de emprego para desenvolvedores de software nos EUA de 2019 a 2023”
Cada tipo de tarefa é cuidadosamente estruturado com respostas verificadas por humanos e avaliado usando um conjunto de dados congelado de páginas da web coletadas, conhecido como RetroSearch. Isso garante consistência entre as avaliações do modelo, evitando o estado flutuante da web ativa.
A Arquitetura do Agente: ReAct e RetroSearch
No coração do Deep Research Bench está a arquitetura ReAct, abreviação de “Reason + Act”. Esse método imita a maneira como um pesquisador humano pode lidar com um problema — pensando na tarefa, realizando uma ação como uma pesquisa na web, observando os resultados e, então, decidindo se deve iterar ou concluir.
Enquanto os modelos anteriores seguem esse ciclo explicitamente, os modelos de "pensamento" mais recentes costumam simplificar o processo, incorporando o raciocínio de forma mais fluida às suas ações. Para garantir a consistência entre as avaliações, a DRB apresenta o RetroSearch — uma versão estática e personalizada da web. Em vez de depender da internet ativa, que muda constantemente, os agentes acessam um arquivo curado de páginas da web coletadas com ferramentas como Serpente, Dramaturgo e RaspadorAPI. A escala é impressionante: para tarefas de alta complexidade, como “Coletar evidências”, o RetroSearch pode fornecer acesso a mais de 189,000 páginas, todas congeladas no tempo, garantindo um ambiente de teste justo e replicável.
Quais agentes de IA têm melhor desempenho?
Entre todos os concorrentes, o o3 da OpenAI emergiu como o de melhor desempenho, com uma pontuação de 0.51 de um total de 1.0 no Deep Research Bench. Embora isso possa parecer modesto, é importante entender a dificuldade do benchmark: devido à ambiguidade nas definições de tarefas e na pontuação, mesmo um agente impecável provavelmente atingiria um máximo de 0.8 — o que os pesquisadores chamam de "teto de ruído". Em outras palavras, mesmo os melhores modelos atuais ainda ficam aquém de pesquisadores humanos bem informados e metódicos.
Ainda assim, a tabela de classificação oferece insights reveladores. A o3 não apenas liderou o grupo, como também o fez com velocidade e consistência, apresentando forte desempenho em quase todos os tipos de tarefas. O Claude 3.7 Sonnet, da Anthropic, veio logo em seguida, demonstrando versatilidade tanto no modo "pensante" quanto no "não pensante". O Gemini 2.5 Pro, modelo principal do Google, destacou-se por sua capacidade de lidar com tarefas que exigem planejamento estruturado e raciocínio passo a passo. Enquanto isso, o DeepSeek-R1, de peso aberto, apresentou uma surpresa agradável, acompanhando o GPT-4 Turbo e reduzindo a diferença de desempenho entre os modelos abertos e fechados.
Em geral, surgiu um padrão claro: modelos mais novos, “capacitados para pensar”, superaram consistentemente seus equivalentes anteriores, e modelos de código fechado mantiveram uma vantagem notável sobre alternativas de peso aberto.
Onde os agentes enfrentam dificuldades?
Ler os padrões de falha destacados no relatório do Deep Research Bench me pareceu surpreendentemente familiar. Um dos aspectos mais frustrantes que já encontrei pessoalmente — especialmente durante longas sessões de pesquisa ou criação de conteúdo — é quando um agente de IA simplesmente esquece o que estávamos fazendo. À medida que a janela de contexto se expande, o modelo frequentemente começa a perder o fio da meada: detalhes importantes desaparecem, objetivos se confundem e, de repente, as respostas parecem desconexas ou sem objetivo. Em algum momento, aprendi que muitas vezes é melhor cortar as perdas e começar do zero, mesmo que isso signifique descartar tudo o que foi gerado até então.
Esse tipo de esquecimento não é apenas anedótico — é o preditor mais significativo de fracasso na avaliação do Deep Research Bench. Mas não é o único problema recorrente. O relatório também destaca como alguns modelos caem no uso repetitivo de ferramentas, executando a mesma pesquisa repetidamente como se estivessem presos em um loop. Outros mostram uma elaboração de consultas deficiente, correspondência de palavras-chave preguiçosa em vez de pensar criticamente sobre como pesquisar de forma eficaz. E, com muita frequência, os agentes são vítimas de conclusões precipitadas — fornecendo uma resposta incompleta que tecnicamente atende aos requisitos, mas não fornece insights reais.
Mesmo entre os modelos de topo, as diferenças são gritantes. O GPT-4 Turbo, por exemplo, mostrou uma tendência notável a esquecer passos anteriores, enquanto o DeepSeek-R1 era mais propenso a alucinar ou inventar informações aparentemente plausíveis, mas incorretas. Em geral, os modelos frequentemente falhavam em verificar as fontes ou validar as descobertas antes de finalizar seus resultados. Para quem já confiou na IA para trabalhos sérios, essas questões parecerão bastante familiares — e ressaltam o quanto ainda temos que avançar na construção de agentes que realmente pensem e pesquisem como humanos.
E quanto ao desempenho baseado em memória?
Curiosamente, o Deep Research Bench também avaliou o que chama de agentes "sem ferramentas" — modelos de linguagem que operam sem qualquer acesso a ferramentas externas, como busca na web ou recuperação de documentos. Esses agentes dependem inteiramente de seus dados internos de treinamento e memória, gerando respostas baseadas exclusivamente no que aprenderam anteriormente durante o treinamento. Na prática, isso significa que eles não podem consultar nada nem verificar informações — eles estão supondo com base no que "lembram".
Surpreendentemente, esses agentes sem ferramentas tiveram um desempenho quase tão bom quanto os agentes de pesquisa completos em determinadas tarefas. Por exemplo, na tarefa Validar Afirmação — cujo objetivo é avaliar a plausibilidade de uma afirmação —, eles obtiveram uma pontuação de 0.61, quase igual à média de 0.62 dos agentes com ferramentas. Isso sugere que modelos como o3 e Claude têm fortes antecedentes internos e muitas vezes conseguem reconhecer a veracidade de afirmações comuns sem precisar pesquisar na internet.
Mas em tarefas mais exigentes — como Derivar Números, que exige a junção de múltiplos valores de diversas fontes, ou Reunir Evidências, que depende da busca e avaliação de fatos diversos em contexto — esses modelos sem ferramentas fracassaram completamente. Sem informações atualizadas ou recursos de consulta em tempo real, eles simplesmente não tinham os meios para produzir respostas precisas ou abrangentes.
Esse contraste destaca uma nuance importante: embora os LLMs de hoje possam simular muito "saber", a pesquisa profunda não depende apenas da recordação, mas do raciocínio com informações atualizadas e verificáveis — algo que somente agentes aumentados por ferramentas podem realmente oferecer.
Considerações Finais
O relatório do DRB deixa uma coisa clara: embora os melhores agentes de IA da atualidade possam superar humanos comuns em tarefas definidas de forma restrita, eles ainda ficam atrás de pesquisadores generalistas qualificados, especialmente quando se trata de planejar estrategicamente, adaptar-se no meio do processo e raciocinar com sutileza.
Essa lacuna se torna especialmente óbvia durante sessões longas ou complexas — algo que vivenciei em primeira mão, em que um agente gradualmente perde o foco do propósito da tarefa, levando a uma frustrante quebra de coerência e utilidade.
O que faz Bancada de Pesquisa Profunda tão valioso é que ele não testa apenas o conhecimento superficial, mas também investiga a intersecção entre uso de ferramentas, memória, raciocínio e adaptação, oferecendo uma analogia mais próxima à pesquisa do mundo real do que benchmarks como MMLU ou GSM8k.
À medida que os LLMs continuam a integrar-se em trabalho de conhecimento sério, Busca do Futuro Ferramentas como o DRB serão essenciais para avaliar não apenas o que esses sistemas sabem, mas também o quão bem eles realmente funcionam.










