Inteligência artificial
Quão bons são os agentes de IA na pesquisa real? Dentro do relatório da bancada de pesquisa profunda

À medida que os grandes modelos de linguagem (LLMs) evoluem rapidamente, também evolui sua promessa como poderosos assistentes de pesquisa. Cada vez mais, eles não estão apenas respondendo a perguntas factuais simples – estão lidando com tarefas de “pesquisa profunda”, que envolvem raciocínio multi-etapas, avaliação de informações conflitantes, busca de dados em toda a web e síntese em uma saída coerente.
Essa capacidade emergente agora está sendo comercializada sob diferentes nomes de marca por laboratórios importantes – a OpenAI chama de “Pesquisa Profunda”, a Anthropic se refere a ela como “Pensamento Estendido”, a Gemini da Google oferece recursos “Pesquisa + Pro” e a Perplexity rotula a sua como “Pesquisa Pro” ou “Pesquisa Profunda”. Mas quão eficazes são essas ofertas na prática? Um novo relatório da FutureSearch, intitulado Bancada de Pesquisa Profunda (DRB): Avaliando Agentes de Pesquisa na Web, oferece a avaliação mais rigorosa até o momento – e os resultados revelam tanto capacidades impressionantes quanto limitações críticas.
O que é a Bancada de Pesquisa Profunda?
Criada pela equipe da FutureSearch, a Bancada de Pesquisa Profunda é um benchmark meticulosamente construído para avaliar o desempenho de agentes de IA em tarefas de pesquisa baseadas na web e multi-etapas. Essas não são perguntas simples com respostas diretas – refletem os desafios complexos e abertos enfrentados por analistas, formuladores de políticas e pesquisadores em cenários do mundo real.
O benchmark inclui 89 tarefas distintas em 8 categorias, como:
- Encontrar Número: por exemplo, “Quantos recalls de dispositivos médicos de classe II da FDA ocorreram?”
- Validar Alegação: por exemplo, “O ChatGPT é 10 vezes mais intensivo em energia do que a Pesquisa do Google?”
- Compilar Conjunto de Dados: por exemplo, “Tendências de emprego para desenvolvedores de software dos EUA de 2019 a 2023”
Cada tipo de tarefa é cuidadosamente estruturado com respostas verificadas por humanos e avaliado usando um conjunto de dados congelado de páginas da web raspadas, conhecido como RetroSearch. Isso garante consistência em todas as avaliações de modelo, evitando o estado flutuante da web ao vivo.
A Arquitetura do Agente: ReAct e RetroSearch
No coração da Bancada de Pesquisa Profunda está a arquitetura ReAct, abreviação de “Reason + Act.” Esse método imita como um pesquisador humano poderia abordar um problema – pensando na tarefa, realizando uma ação como uma pesquisa na web, observando os resultados e decidindo se deve iterar ou concluir.
Enquanto modelos anteriores seguem esse loop explicitamente, modelos “pensantes” mais novos frequentemente simplificam o processo, incorporando o raciocínio de forma mais fluida em suas ações. Para garantir consistência em todas as avaliações, a DRB introduz o RetroSearch – uma versão estática personalizada da web. Em vez de confiar na internet ao vivo, que muda constantemente, os agentes acessam um arquivo curado de páginas da web raspadas usando ferramentas como Serper, Playwright e ScraperAPI. A escala é impressionante: para tarefas de alta complexidade, como “Coletar Evidências”, o RetroSearch pode fornecer acesso a mais de 189.000 páginas, todas congeladas no tempo, garantindo um ambiente de teste justo e replicável.
Quais Agentes de IA Performam Melhor?
Entre todos os concorrentes, o o3 da OpenAI emergiu como o melhor desempenho, marcando 0,51 em uma escala de 1,0 na Bancada de Pesquisa Profunda. Embora isso possa parecer modesto, é importante entender a dificuldade do benchmark: devido à ambiguidade nas definições de tarefas e pontuação, mesmo um agente perfeito provavelmente atingiria cerca de 0,8 – o que os pesquisadores chamam de “teto de ruído”. Em outras palavras, mesmo os melhores modelos de hoje ainda ficam aquém de pesquisadores humanos bem informados e metódicos.
Ainda assim, o ranking oferece insights reveladores. O o3 não apenas liderou o grupo, mas o fez com velocidade e consistência, mostrando um desempenho forte em quase todos os tipos de tarefas. O Claude 3.7 Sonnet da Anthropic seguiu de perto, demonstrando versatilidade em ambos os modos “pensantes” e “não pensantes”. O Gemini 2.5 Pro, modelo de bandeira da Google, se destacou por sua capacidade de lidar com tarefas que exigem planejamento estruturado e raciocínio passo a passo. Enquanto isso, o DeepSeek-R1 de peso aberto trouxe uma agradável surpresa – acompanhando o GPT-4 Turbo e estreitando a lacuna de desempenho entre modelos de peso aberto e fechado.
Em toda a tabela, um padrão claro emergiu: modelos “habilitados para pensamento” mais novos consistentemente superaram seus antecessores, e modelos de código fechado mantiveram uma vantagem notável sobre alternativas de peso aberto.
Onde os Agentes Enfrentam Dificuldades?
Ler os padrões de falha destacados no relatório da Bancada de Pesquisa Profunda me senti surpreendentemente familiar. Um dos aspectos mais frustrantes que eu pessoalmente encontrei – especialmente durante longas sessões de pesquisa ou criação de conteúdo – é quando um agente de IA simplesmente esquece o que estávamos fazendo. À medida que a janela de contexto se estende, o modelo frequentemente começa a perder o fio: detalhes importantes desaparecem, metas se confundem e, de repente, as respostas parecem desconexas ou sem direção. Em algum momento, aprendi que é melhor cortar as perdas e começar de novo, mesmo que isso signifique jogar fora tudo o que foi gerado até então.
Esse tipo de esquecimento não é apenas anedótico – é o principal preditor de falha na avaliação da Bancada de Pesquisa Profunda. Mas não é o único problema recorrente. O relatório também destaca como alguns modelos caem em uso repetitivo de ferramentas, executando a mesma pesquisa repetidamente como se estivesse preso em um loop. Outros mostram uma má elaboração de consultas, correspondendo preguiçosamente a palavras-chave em vez de pensar criticamente sobre como pesquisar de forma eficaz. E, com muita frequência, os agentes sucumbem a conclusões prematuras – entregando uma resposta mal formada que tecnicamente atende à caixa, mas fica aquém de uma verdadeira percepção.
Mesmo entre os melhores modelos, as diferenças são marcantes. O GPT-4 Turbo, por exemplo, mostrou uma tendência notável a esquecer etapas anteriores, enquanto o DeepSeek-R1 era mais propenso a alucinar ou inventar informações plausíveis, mas incorretas. Em toda a tabela, os modelos frequentemente falhavam em verificar fontes ou validar descobertas antes de finalizar sua saída. Para qualquer um que tenha confiado na IA para trabalhos sérios, esses problemas serão muito familiares – e eles sublinham quão longe ainda temos a ir na construção de agentes que possam realmente pensar e pesquisar como humanos.
E o Desempenho Baseado em Memória?
Interessantemente, a Bancada de Pesquisa Profunda também avaliou o que chama de “agentes sem ferramentas” – modelos de linguagem que operam sem acesso a ferramentas externas, como pesquisa na web ou recuperação de documentos. Esses agentes dependem inteiramente de seus dados de treinamento internos e memória, gerando respostas com base apenas no que aprenderam durante o treinamento. Na prática, isso significa que eles não podem procurar nada ou verificar informações – estão apenas adivinhando com base no que “lembram”.
Surpreendentemente, esses agentes sem ferramentas performaram quase tão bem quanto agentes de pesquisa completos em certas tarefas. Por exemplo, na tarefa Validar Alegação – onde o objetivo é avaliar a plausibilidade de uma afirmação – eles marcaram 0,61, quase igual à média de 0,62 dos agentes habilitados para ferramentas. Isso sugere que modelos como o3 e Claude têm fortes priors internos e podem frequentemente reconhecer a veracidade de alegações comuns sem precisar pesquisar a web.
Mas em tarefas mais exigentes – como Derivar Número, que exige juntar vários valores de diferentes fontes, ou Coletar Evidências, que depende de encontrar e avaliar fatos diversos em contexto – esses modelos sem ferramentas completamente se desintegraram. Sem informações frescas ou capacidades de lookup em tempo real, eles simplesmente careciam dos meios para produzir respostas precisas ou abrangentes.
Essa contraste destaca uma nuances importante: embora os LLMs de hoje possam simular “saber” muito, a pesquisa profunda depende não apenas de recall, mas de raciocínio com informações atualizadas e verificáveis – algo que apenas agentes aumentados por ferramentas podem realmente entregar.
Pensamentos Finais
O relatório da DRB deixa claro: embora os melhores agentes de IA de hoje possam superar humanos médios em tarefas estreitamente definidas, eles ainda ficam aquém de pesquisadores gerais habilidosos – especialmente quando se trata de planejar estrategicamente, adaptar-se durante o processo e raciocinar com nuances.
Essa lacuna se torna especialmente óbvia durante sessões longas ou complexas – algo que eu experimentei pessoalmente, onde um agente gradualmente perde o propósito da tarefa, levando a um frustrante colapso na coerência e utilidade.
O que torna a Bancada de Pesquisa Profunda tão valiosa é que ela não testa apenas conhecimento de superfície – ela examina a interseção do uso de ferramentas, memória, raciocínio e adaptação, oferecendo um análogo mais próximo à pesquisa do mundo real do que benchmarks como MMLU ou GSM8k.
À medida que os LLMs continuam a se integrar ao trabalho de conhecimento sério, as ferramentas da FutureSearch, como a DRB, serão essenciais para avaliar não apenas o que esses sistemas sabem, mas como eles realmente funcionam.










