Inteligencia Artificial
¿Qué tan buenos son los agentes de IA en la investigación real? Informe de investigación profunda

As modelos de lenguaje grande (LLM) La rápida evolución de estos sistemas, junto con su promesa como potentes asistentes de investigación, hace que estos no se limiten a responder preguntas factuales sencillas, sino que aborden tareas de "investigación profunda", que implican razonamiento de varios pasos, evaluación de información contradictoria, búsqueda de datos en la web y su síntesis para obtener un resultado coherente.
Esta capacidad emergente se comercializa ahora bajo diferentes marcas por importantes laboratorios: OpenAI la llama "Investigación Profunda", Anthropic la llama "Pensamiento Extendido", Gemini de Google ofrece funciones de "Búsqueda + Pro", y Perplexity las denomina "Búsqueda Pro" o "Investigación Profunda". Pero ¿cuán efectivas son estas ofertas en la práctica? Un nuevo informe de Búsqueda del futuro, Titulado Banco de Investigación Profunda (DRB): Evaluación de Agentes de Investigación Web, ofrece la evaluación más rigurosa hasta la fecha, y los resultados revelan tanto capacidades impresionantes como deficiencias críticas.
¿Qué es Deep Research Bench?
Creado por el equipo de FutureSearch, Deep Research Bench es un punto de referencia meticulosamente diseñado para evaluar el rendimiento de los agentes de IA en tareas de investigación web de varios pasos. No se trata de preguntas sencillas con respuestas directas, sino que reflejan los desafíos complejos y abiertos que enfrentan analistas, legisladores e investigadores en entornos reales.
El punto de referencia incluye 89 tareas distintas en 8 categorías tales como:
- Buscar número:por ejemplo, "¿Cuántos retiros de dispositivos médicos de Clase II de la FDA ocurrieron?"
- Validar reclamación:por ejemplo, "¿ChatGPT consume 10 veces más energía que la Búsqueda de Google?"
- Compilar conjunto de datos: p. ej., “Tendencias laborales para desarrolladores de software en EE. UU. de 2019 a 2023”
Cada tipo de tarea se estructura cuidadosamente con respuestas verificadas por humanos y se evalúa mediante un conjunto de datos congelados de páginas web extraídas, conocido como RetroSearch. Esto garantiza la coherencia entre las evaluaciones del modelo, evitando las fluctuaciones de la web en tiempo real.
La arquitectura del agente: ReAct y RetroSearch
En el corazón de Deep Research Bench se encuentra la arquitectura ReAct, abreviatura de «Razón + Acción». Este método imita cómo un investigador humano podría abordar un problema: analizando la tarea, realizando una acción como una búsqueda web, observando los resultados y, finalmente, decidiendo si iterar o concluir.
Si bien los modelos anteriores siguen este ciclo explícitamente, los modelos de pensamiento más recientes suelen agilizar el proceso, integrando el razonamiento con mayor fluidez en sus acciones. Para garantizar la coherencia entre las evaluaciones, DRB presenta RetroSearch, una versión estática y personalizada de la web. En lugar de depender de internet en tiempo real, que cambia constantemente, los agentes acceden a un archivo seleccionado de páginas web extraídas mediante herramientas como Serpiente, Dramaturgo y RaspadorAPILa escala es impresionante: para tareas de alta complejidad como "Recopilar evidencia", RetroSearch puede proporcionar acceso a más de 189,000 XNUMX páginas, todas congeladas en el tiempo, lo que garantiza un entorno de prueba justo y replicable.
¿Qué agentes de IA funcionan mejor?
Entre todos los contendientes, o3 de OpenAI se alzó con el mejor rendimiento, con una puntuación de 0.51 sobre 1.0 en el Deep Research Bench. Si bien esto puede parecer modesto, es importante comprender la dificultad del benchmark: debido a la ambigüedad en las definiciones y puntuaciones de las tareas, incluso un agente impecable probablemente alcanzaría un máximo de 0.8, lo que los investigadores denominan "techo de ruido". En otras palabras, incluso los mejores modelos actuales aún no alcanzan a los investigadores humanos bien informados y metódicos.
Aun así, la clasificación ofrece información reveladora. o3 no solo lideró el grupo, sino que lo hizo con velocidad y consistencia, mostrando un excelente rendimiento en casi todos los tipos de tareas. Claude 3.7 Sonnet de Anthropic le siguió de cerca, demostrando versatilidad tanto en sus modos de pensamiento como de no pensamiento. Gemini 2.5 Pro, el modelo insignia de Google, destacó por su capacidad para gestionar tareas que requieren planificación estructurada y razonamiento paso a paso. Por otro lado, el DeepSeek-R1 de peso abierto ofreció una grata sorpresa: mantuvo el ritmo de GPT-4 Turbo y redujo la diferencia de rendimiento entre los modelos abiertos y cerrados.
En general, surgió un patrón claro: los modelos más nuevos, “habilitados para el pensamiento”, superaron consistentemente a sus contrapartes anteriores, y los modelos de código cerrado mantuvieron una ventaja notable sobre las alternativas de peso abierto.
¿Dónde luchan los agentes?
Leer los patrones de fallos destacados en el informe de Deep Research Bench me resultó sorprendentemente familiar. Uno de los aspectos más frustrantes que he experimentado, especialmente durante largas sesiones de investigación o creación de contenido, es cuando un agente de IA simplemente olvida lo que estábamos haciendo. A medida que se amplía la ventana de contexto, el modelo suele perder el hilo: los detalles clave se desvanecen, los objetivos se confunden y, de repente, las respuestas parecen inconexas o sin sentido. En algún momento, he aprendido que a menudo es mejor reducir las pérdidas y empezar de cero, incluso si eso significa desechar todo lo generado hasta el momento.
Ese tipo de olvido no es solo anecdótico: es el predictor de fracaso más significativo en la evaluación de Deep Research Bench. Pero no es el único problema recurrente. El informe también destaca cómo algunos modelos recurren al uso repetitivo de herramientas, ejecutando la misma búsqueda una y otra vez como si estuvieran atrapados en un bucle. Otros presentan una elaboración deficiente de consultas, buscando palabras clave de forma perezosa en lugar de pensar críticamente sobre cómo buscar eficazmente. Y con demasiada frecuencia, los agentes caen en conclusiones prematuras, entregando una respuesta a medias que técnicamente cumple los requisitos, pero no proporciona información real.
Incluso entre los modelos superiores, las diferencias son marcadas. GPT-4 Turbo, por ejemplo, mostró una notable tendencia a olvidar los pasos anteriores, mientras que DeepSeek-R1 era más propenso a... alucinar o inventar información que parece plausible, pero incorrecta. En general, los modelos con frecuencia no verificaban las fuentes ni validaban los hallazgos antes de finalizar su resultado. Para cualquiera que haya confiado en la IA para un trabajo serio, estos problemas resultarán demasiado familiares, y subrayan cuánto nos queda por hacer para desarrollar agentes que realmente puedan pensar e investigar como humanos.
¿Qué pasa con el rendimiento basado en la memoria?
Curiosamente, Deep Research Bench también evaluó lo que denomina agentes "sin herramientas": modelos de lenguaje que operan sin acceso a herramientas externas, como la búsqueda web o la recuperación de documentos. Estos agentes dependen completamente de sus datos y memoria de entrenamiento internos, generando respuestas basadas únicamente en lo aprendido previamente durante el entrenamiento. En la práctica, esto significa que no pueden buscar ni verificar información; solo hacen conjeturas basándose en lo que "recuerdan".
Sorprendentemente, estos agentes sin herramientas tuvieron un rendimiento casi tan bueno como el de los agentes de investigación completa en ciertas tareas. Por ejemplo, en la tarea de Validar Afirmación (cuyo objetivo es evaluar la plausibilidad de una afirmación), obtuvieron una puntuación de 0.61, casi igualando el promedio de 0.62 de los agentes con herramientas. Esto sugiere que modelos como o3 y Claude tienen sólidos antecedentes internos y, a menudo, pueden reconocer la veracidad de afirmaciones comunes sin necesidad de buscar en internet.
Pero en tareas más exigentes, como Derivar Número, que requiere combinar múltiples valores de diversas fuentes, o Recopilar Evidencia, que depende de encontrar y evaluar diversos hechos en contexto, estos modelos sin herramientas fracasaron por completo. Sin información actualizada ni capacidades de búsqueda en tiempo real, simplemente carecían de los medios para generar respuestas precisas y completas.
Este contraste resalta un matiz importante: si bien los LLM actuales pueden simular "saber" mucho, la investigación profunda depende no solo del recuerdo, sino del razonamiento con información actualizada y verificable, algo que solo los agentes mejorados con herramientas pueden ofrecer realmente.
Conclusión
El informe del DRB deja una cosa clara: si bien los mejores agentes de IA de la actualidad pueden superar a los humanos promedio en tareas estrictamente definidas, aún están por detrás de los investigadores generalistas capacitados, especialmente cuando se trata de planificar estratégicamente, adaptarse a mitad de proceso y razonar con matices.
Esta brecha se hace especialmente obvia durante sesiones largas o complejas, algo que he experimentado de primera mano, donde un agente pierde gradualmente la noción del propósito de la tarea, lo que lleva a una frustrante ruptura de la coherencia y la utilidad.
¿Qué te hace Banco de investigación profunda Es tan valioso que no solo prueba el conocimiento superficial, sino que investiga la intersección del uso de herramientas, la memoria, el razonamiento y la adaptación, ofreciendo una analogía más cercana a la investigación del mundo real que puntos de referencia como MMLU o GSM8k.
A medida que los LLM continúan integrándose en el trabajo de conocimiento serio, Búsqueda del futuro Herramientas como DRB serán esenciales para evaluar no sólo lo que estos sistemas saben, sino también lo bien que funcionan realmente.










