Inteligencia artificial
¿Qué tan buenos son los agentes de IA en la investigación real? Dentro del informe de la banca de investigación profunda

A medida que los grandes modelos de lenguaje (LLM) evolucionan rápidamente, también lo hace su promesa como poderosos asistentes de investigación. Cada vez más, no solo responden preguntas fácticas simples, sino que también abordan tareas de “investigación profunda”, que involucran razonamiento multi-paso, evaluación de información contradictoria, búsqueda de datos en toda la web y síntesis en una salida coherente.
Esta capacidad emergente ahora se comercializa con diferentes nombres de marca por laboratorios importantes: OpenAI la llama “Investigación profunda”, Anthropic se refiere a ella como “Pensamiento extendido”, Gemini de Google ofrece características “Búsqueda + Pro” y Perplexity etiqueta la suya como “Búsqueda Pro” o “Investigación profunda”. Pero, ¿qué tan efectivas son estas ofertas en la práctica? Un nuevo informe de FutureSearch, titulado Deep Research Bench (DRB): Evaluating Web Research Agents, ofrece la evaluación más rigurosa hasta la fecha, y los resultados revelan tanto capacidades impresionantes como limitaciones críticas.
¿Qué es Deep Research Bench?
Creado por el equipo de FutureSearch, Deep Research Bench es una referencia meticulosamente construida diseñada para evaluar el rendimiento de los agentes de IA en tareas de investigación basadas en la web y multi-paso. Estas no son preguntas simples con respuestas directas, sino que reflejan los desafíos abiertos y complejos que enfrentan los analistas, formuladores de políticas y investigadores en entornos del mundo real.
La referencia incluye 89 tareas distintas en 8 categorías, como:
- Encontrar número: por ejemplo, “¿Cuántas retiradas de dispositivos médicos de clase II de la FDA ocurrieron!”
- Validar reclamo: por ejemplo, “¿Es ChatGPT 10 veces más intensivo en energía que la búsqueda de Google?”
- Compilar conjunto de datos: por ejemplo, “Tendencias laborales para desarrolladores de software de EE. UU. desde 2019 hasta 2023”
Cada tipo de tarea está estructurado cuidadosamente con respuestas verificadas por humanos y evaluadas utilizando un conjunto de datos congelado de páginas web raspadas, conocido como RetroSearch. Esto garantiza la consistencia en las evaluaciones de los modelos, evitando el estado fluctuante de la web en vivo.
La arquitectura del agente: ReAct y RetroSearch
En el corazón de Deep Research Bench se encuentra la arquitectura ReAct, abreviatura de “Razonar + Actuar”. Este método imita cómo un investigador humano podría abordar un problema: pensando en la tarea, realizando una acción como una búsqueda en la web, observando los resultados y decidiendo si iterar o concluir.
Mientras que los modelos anteriores siguen este bucle explícitamente, los modelos “de pensamiento” más nuevos a menudo simplifican el proceso, incorporando la lógica de manera más fluida en sus acciones. Para garantizar la consistencia en las evaluaciones, DRB introduce RetroSearch: una versión estática y personalizada de la web. En lugar de confiar en Internet en vivo, que cambia constantemente, los agentes acceden a un archivo curado de páginas web raspadas utilizando herramientas como Serper, Playwright y ScraperAPI. La escala es impresionante: para tareas de alta complejidad como “Recopilar evidencia”, RetroSearch puede proporcionar acceso a más de 189,000 páginas, todas congeladas en el tiempo, garantizando un entorno de prueba justo y replicable.
¿Qué agentes de IA tienen el mejor desempeño?
Entre todos los competidores, o3 de OpenAI emergió como el mejor rendimiento, obteniendo 0.51 de un total posible de 1.0 en el Deep Research Bench. Aunque eso puede sonar modesto, es importante entender la dificultad de la referencia: debido a la ambigüedad en las definiciones de tareas y la puntuación, incluso un agente perfecto probablemente se quedaría corto alrededor de 0.8, lo que los investigadores llaman el “techo de ruido”. En otras palabras, incluso los mejores modelos de hoy en día todavía no alcanzan a los investigadores humanos bien informados y metódicos.
Sin embargo, la tabla de clasificación ofrece perspectivas reveladoras. o3 no solo lideró el grupo, sino que lo hizo con velocidad y consistencia, mostrando un rendimiento sólido en casi todos los tipos de tareas. Claude 3.7 Sonnet de Anthropic siguió de cerca, demostrando versatilidad tanto en sus modos “de pensamiento” como “no de pensamiento”. Gemini 2.5 Pro, el modelo insignia de Google, se destacó por su capacidad para manejar tareas que requieren planificación estructurada y razonamiento paso a paso. Mientras que DeepSeek-R1, de peso abierto, dio una agradable sorpresa, manteniendo el ritmo con GPT-4 Turbo y reduciendo la brecha de rendimiento entre modelos abiertos y cerrados.
En todo el tablero, surgió un patrón claro: los modelos más nuevos, “habilitados para el pensamiento”, consistentemente superaron a sus contrapartes anteriores, y los modelos de código cerrado mantuvieron una ventaja notable sobre las alternativas de peso abierto.
¿Dónde fallan los agentes?
Leer los patrones de falla resaltados en el informe Deep Research Bench se sintió sorprendentemente familiar. Uno de los aspectos más frustrantes que he encontrado personalmente, especialmente durante largas sesiones de investigación o creación de contenido, es cuando un agente de IA simplemente se olvida de lo que estábamos haciendo. A medida que la ventana de contexto se estira, el modelo a menudo comienza a perder el hilo: los detalles clave se desvanecen, los objetivos se confunden y, de repente, las respuestas parecen desconectadas o sin rumbo. En algún momento, he aprendido que a menudo es mejor cortar las pérdidas y comenzar de nuevo, incluso si eso significa tirar todo lo que se ha generado hasta ahora.
Ese tipo de olvido no es solo anecdótico, es el predictor más significativo de falla en la evaluación de Deep Research Bench. Pero no es el único problema recurrente. El informe también destaca cómo algunos modelos caen en el uso repetitivo de herramientas, ejecutando la misma búsqueda una y otra vez como si estuvieran atrapados en un bucle. Otros muestran una mala elaboración de consultas, coincidiendo perezosamente con palabras clave en lugar de pensar críticamente sobre cómo buscar de manera efectiva. Y, con demasiada frecuencia, los agentes sucumben a conclusiones prematuras, entregando una respuesta a medias que técnicamente cumple con el requisito pero se queda corta de una verdadera perspicacia.
Incluso entre los mejores modelos, las diferencias son marcadas. GPT-4 Turbo, por ejemplo, mostró una tendencia notable a olvidar los pasos anteriores, mientras que DeepSeek-R1 era más propenso a alucinar o inventar información plausible pero incorrecta. En todo el tablero, los modelos fallaron con frecuencia al no verificar fuentes o validar hallazgos antes de finalizar su salida. Para cualquiera que haya confiado en la IA para un trabajo serio, estos problemas serán demasiado familiares y subrayan cuánto camino queda por recorrer en la construcción de agentes que puedan pensar y investigar realmente como los humanos.
¿Qué hay sobre el rendimiento basado en la memoria?
Curiosamente, Deep Research Bench también evaluó lo que llama agentes “sin herramientas”, es decir, modelos de lenguaje que operan sin acceso a herramientas externas, como búsqueda en la web o recuperación de documentos. Estos agentes confían enteramente en sus datos de entrenamiento internos y memoria, generando respuestas basadas únicamente en lo que han aprendido durante el entrenamiento. En la práctica, esto significa que no pueden buscar nada o verificar información, están adivinando basándose en lo que “recuerdan”.
Sorprendentemente, estos agentes sin herramientas obtuvieron resultados casi tan buenos como los agentes de investigación completos en ciertas tareas. Por ejemplo, en la tarea Validar reclamo, donde el objetivo es evaluar la plausibilidad de una afirmación, obtuvieron 0.61, casi igualando el promedio de 0.62 de los agentes con herramientas. Esto sugiere que modelos como o3 y Claude tienen fuertes priores internos y pueden reconocer con frecuencia la veracidad de reclamos comunes sin necesidad de buscar en la web.
Pero en tareas más exigentes, como Derivar número, que requiere combinar varios valores de diversas fuentes, o Recopilar evidencia, que depende de encontrar y evaluar hechos diversos en contexto, estos modelos sin herramientas se derrumbaron por completo. Sin información fresca o capacidades de búsqueda en tiempo real, simplemente carecían de los medios para producir respuestas precisas o completas.
Este contraste destaca una importante sutileza: aunque los LLM actuales pueden simular “saber” mucho, la investigación profunda depende no solo de la recuerdo, sino de razonar con información verificable y actualizada, algo que solo los agentes con herramientas pueden entregar realmente.
Pensamientos finales
El informe DRB deja claro que, aunque los mejores agentes de IA de hoy pueden superar a los humanos promedio en tareas estrechamente definidas, todavía se quedan atrás de los investigadores generales habilidosos, especialmente cuando se trata de planificar estratégicamente, adaptarse en el proceso y razonar con sutileza.
Esta brecha se vuelve especialmente obvia durante sesiones largas o complejas, algo que he experimentado personalmente, donde un agente gradualmente pierde la pista del propósito de la tarea, lo que lleva a un frustrante colapso en la coherencia y la utilidad.
Lo que hace que Deep Research Bench sea tan valioso es que no solo prueba el conocimiento de superficie, sino que también explora la intersección del uso de herramientas, la memoria, el razonamiento y la adaptación, ofreciendo un análogo más cercano a la investigación del mundo real que referencias como MMLU o GSM8k.
A medida que los LLM siguen integrándose en el trabajo del conocimiento serio, las herramientas de FutureSearch como DRB serán esenciales para evaluar no solo qué saben estos sistemas, sino cómo funcionan realmente.










