Ángulo de Anderson

Por qué la IA lucha para recoger una tarea a medio terminar

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

Aunque los agentes de IA pueden resolver tareas complejas, un nuevo estudio indica que luchan para continuar el trabajo iniciado por otro, lo que conduce a un esfuerzo duplicado, un progreso más lento y mayores costos.

 

Una de las tareas más agotadoras pero esenciales al tratar con agentes y interfaces de IA es que la IA necesita “ponerse al día” al comienzo de un intercambio, en casi todos los casos.

Mientras que los modelos de lenguaje populares como ChatGPT ofrecen alguno acceso a “memorias personalizadas persistentes”, la implementación es generalmente un asunto de prueba y error; al final, es normalmente más seguro aceptar el esfuerzo de contextualizar la tarea para la IA – al menos, para evitar que adivine un contexto incorrecto a partir de su espacio latente entrenado latente.

Recoger la inercia en el mundo real

El desafío precede a la IA, por supuesto; muchas empresas ya requieren que el personal mantenga la documentación sobre los procesos que desarrollan o perfeccionan (en parte para una incorporación más suave, pero también para evitar que los empleados ganen influencia).

Sin embargo, en la práctica, es a menudo solo las organizaciones más grandes y mejor financiadas las que honran el compromiso de crear, actualizar y mantener la documentación. Muy a menudo, en cambio, los empleados que deben recoger el trabajo de otros se les asigna una tarea de “detective” que requiere que desenreden minuciosamente la línea del tiempo que condujo al trabajo abandonado que ahora se les ha asignado.

No es necesario decir que una documentación impecable ahorraría días, semanas o incluso meses de trabajo – si solo fuera una proposición financieramente racional.

Sin embargo, donde los agentes de IA son los operativos en cuestión, puede haber un mayor alcance para resolver potencialmente el problema.

Entregárselo

Esta carga de “no documentación” se cuantifica en un nuevo artículo de investigación de EE. UU., que llama al problema deuda de entrega.

Si la deuda técnica es el síndrome en el que las soluciones tecnológicas rápidas y baratas de hoy conducen a soluciones frágiles o difíciles de mantener en el futuro, entonces la deuda de entrega define el costo de redescubrimiento – el rastreo forense de los pasos de un trabajador o entidad que no está disponible para asesorar (despido hostil, demasiado ocupado, muerto, etc.) o que no puede asesorar (por ejemplo, un LLM que ha descartado hace tiempo el contexto que condujo al estado actual del trabajo).

El nuevo artículo – una colaboración entre investigadores independientes y afiliados a la Universidad Estatal de Georgia – se ocupa de la deuda de entrega en lo que respecta a agentes de codificación que se les asigna la tarea de recoger donde otro agente, persona o entidad se detuvo en un código.

Uno de los objetivos del trabajo es establecer exactamente cuánta documentación es necesaria para reducir la deuda de entrega, y qué procedimientos y protocolos podrían recomendarse como práctica estándar en el futuro para minimizar el problema.

Preocupaciones presupuestarias

En un mundo ideal, uno podría configurar el registro en verbose y simplemente proporcionar al agente neófito (el que recoge la tarea) los registros relacionados con la tarea incompleta.

Sin embargo, analizar tal volumen de datos en datos útiles sería tanto tiempo consumidor como consumidor de espacio de almacenamiento, y también plantearía limitaciones de espacio de almacenamiento.

Esto es un problema presupuestario, porque usar volcados brutos es agotador, mientras que usar registros curados es menos confuso, pero requiere un compromiso previo de recursos.

Notas adecuadas y dedicadas serían muy efectivas para poner a un “artista de recoger” al día, pero al costo de un compromiso de esfuerzo aún mayor – esfuerzo que puede que nunca se necesite, si la lógica del trabajo resulta ser autoevidente, o si el trabajo se abandona, o nunca se revisa de nuevo.

Los autores del nuevo trabajo, titulado Deuda de entrega: el costo de redescubrimiento cuando los agentes de codificación toman el control de tareas interrumpidas, han considerado todos estos escenarios y han adaptado modelos de tarea existentes a nuevas formas de cuantificar y abordar la deuda de entrega. Aunque el trabajo se ocupa específicamente de agentes de codificación, puede indicar rutas útiles hacia adelante en contextos de IA más amplios y en las políticas de documentación.

Los autores afirman:

‘La deuda de entrega surge cuando un agente hace progreso visible pero deja un estado que un sucesor no puede continuar fácilmente, como ediciones no explicadas, archivos de borrador, suposiciones ocultas o evidencia de validación faltante.

‘Una métrica basada únicamente en la resolución final no puede distinguir entre el redescubrimiento costoso y la continuación eficiente.

‘Dos agentes predecesores pueden dejar el mismo repositorio marcado, pero sus sucesores pueden enfrentar costos de continuación muy diferentes: uno puede continuar inmediatamente, mientras que otro debe gastar muchas interacciones de herramientas redescubriendo la intención a partir de archivos de borrador y la historia de comandos incompleta.’

Método

Los autores definen predecesor como el agente anterior (el que originó o último que trabajó en el trabajo) y sucesor como el agente actual (el que se le asigna la tarea de recoger el trabajo).

En apoyo de un benchmark diseñado para medir el costo de transferir tareas de ingeniería de software incompletas entre agentes, 75 tareas de SWE-bench Verificado se convirtieron en 181 escenarios de entrega, cada uno representando un punto donde el trabajo se interrumpió y se pasó a un agente sucesor. Tres diferentes modelos de sucesor se probaron en 2.172 intentos de toma de control.

Las familias de modelos utilizadas, y variadamente mezcladas en estas pruebas de entrega, fueron Qwen, Gemma y Devstral.

Los experimentos examinaron cuatro niveles de información heredada: en el entorno más restrictivo, el sucesor recibió solo el estado del repositorio (efectivamente, entrando en un “área de desastre” no documentada). Otros entornos proporcionaron un contexto cada vez más detallado, desde trazas de actividad y historias de comandos, hasta resúmenes compactos que describían lo que ya se había intentado y aprendido:

Solo repositorio

El sucesor recibe solo el repositorio y la descripción de la tarea, sin registro de acciones anteriores, decisiones o intentos fallidos.

Traza bruta

El sucesor recibe la historia completa del predecesor, exponiendo cada comando, observación, edición, éxito y fracaso.

Notas de resumen

El sucesor recibe un resumen en lenguaje natural generado a partir de la historia de actividad del predecesor, condensando la información clave en prosa.

Notas estructuradas

El sucesor recibe un documento de entrega compacto que contiene campos estandarizados que describen el estado de la tarea, los cambios realizados y los resultados de validación.

Más que centrarse únicamente en si una tarea se completó, el estudio se diseñó para medir el costo de la continuación en sí, con atención a la utilización de herramientas, el consumo de tokens y la cantidad de esfuerzo requerido para reconstruir el razonamiento detrás del trabajo anterior.

Se definieron tres detección de puntos de entrega y tres estados de entrega para los experimentos:

Detección de puntos de entrega Estados de entrega
Después de la primera edición de fuente. Después del primer cambio de código. El primer agente ha comenzado a trabajar pero no ha verificado si el cambio funciona. Necesita completarse. La tarea está incompleta, y el sucesor debe continuar trabajando para llegar a una solución correcta.
Después del primer resultado de validación. El primer agente ha ejecutado una prueba o paso de validación, proporcionando alguna evidencia sobre el progreso. Ya resuelto y preservado. La tarea ha sido efectivamente completada, y el trabajo del sucesor es evitar romperla.
Después de la primera edición posterior a un fallo. Una prueba ha fallado y el primer agente ya ha intentado responder haciendo otro cambio. Comportamiento existente roto. Algo que funcionaba antes ahora está roto.

Datos y pruebas

Para crear escenarios de entrega realistas, el benchmark de los autores se construyó a partir de 75 tareas de ingeniería de software extraídas de SWE-Bench Verificado, con énfasis en problemas que típicamente toman entre 15 minutos y 4 horas en resolverse.

Más que evaluar solo tareas completadas, los investigadores capturaron múltiples puntos de control intermedios durante el trabajo, creando situaciones en las que un agente de IA debía tomar el control de otro:

Construcción del benchmark de toma de control. Setenta y cinco tareas de SWE-bench Verificado se expandieron en 181 puntos de entrega que abarcan tres etapas de trabajo, etiquetados según el estado del repositorio en el momento de la toma de control, y evaluados bajo cuatro condiciones de intercambio de información, produciendo 2.172 ejecuciones totales de toma de control del agente sucesor.

Construcción del benchmark de toma de control. Setenta y cinco tareas de SWE-bench Verificado se expandieron en 181 puntos de entrega que abarcan tres etapas de trabajo, etiquetados según el estado del repositorio en el momento de la toma de control, y evaluados bajo cuatro condiciones de intercambio de información, produciendo 2.172 ejecuciones totales de toma de control del agente sucesor. Fuente

Como cada tarea podría generar varios puntos de entrega, y cada entrega se probó usando cuatro formas diferentes de información transferida, el benchmark se expandió rápidamente, con el conjunto de datos final compuesto por 181 tareas de entrega distintas, y 724 evaluaciones de toma de control para cada modelo de sucesor, produciendo 2.172 ejecuciones de toma de control en los tres sistemas de IA probados.

Se utilizó un entorno de agente de codificación de estilo OpenHands para las pruebas, con acciones de terminal, congelamiento de repositorio en puntos de entrega, edición de archivos y validación oficial del benchmark de SWE-Bench.

En el estudio principal, todos los puntos de entrega provienen de ejecuciones de predecesor basadas en Qwen, con el fin de proporcionar un punto de partida fijo para evaluar la diferencia entre diversas combinaciones de agentes y los diversos escenarios.

Las parejas de toma de control probadas fueron Qwen-a-Qwen; Qwen-a-Gemma; y Qwen-a-Devstral.

Traza bruta produjo las mayores reducciones en el esfuerzo del sucesor, reduciendo los eventos del agente en un 57-59%, mientras que Notas de resumen y Notas estructuradas redujeron los eventos en un 20-46%. El uso de tokens de llamada también disminuyó en todos los enfoques, con reducciones que variaron del 42-63%:

Ver Carreras Tasa de resolución (Δ pp) Eventos del agente (Δ%) Tokens de llamada (Δ%)
Qwen → Qwen
Repositorio solo 181 46.4% 99 1.63M
Traza bruta 181 52.5% (+6.1 pp) 41 (-59%) 811k (-50%)
Notas de resumen 181 51.4% (+5.0 pp) 53 (-46%) 602k (-63%)
Notas estructuradas 181 50.8% (+4.4 pp) 55 (-44%) 660k (-60%)
Qwen → Gemma
Repositorio solo 181 42.5% 49 738k
Traza bruta 181 49.2% (+6.6 pp) 21 (-57%) 300k (-59%)
Notas de resumen 181 44.2% (+1.7 pp) 33 (-33%) 319k (-57%)
Notas estructuradas 181 43.6% (+1.1 pp) 39 (-20%) 317k (-57%)
Qwen → Devstral
Repositorio solo 181 34.3% 175 3.94M
Traza bruta 181 49.2% (+14.9 pp) 73 (-58%) 1.66M (-58%)
Notas de resumen 181 43.6% (+9.4 pp) 123 (-30%) 2.30M (-42%)
Notas estructuradas 181 44.8% (+10.5 pp) 125 (-29%) 2.30M (-42%)

Bajo entregas solo repositorio, los agentes sucesores tenían que gastar interacciones adicionales reconstruyendo la intención del predecesor, la evidencia previa y los intentos fallidos. Traza bruta, Notas de resumen y Notas estructuradas transfirieron parte de esa información directamente, reduciendo la cantidad de redescubrimiento requerido, aunque al costo de prompts iniciales más grandes.

Para probar si las ganancias eran genuinas, cada entrega rica en contexto se emparejó con una entrega solo repositorio que comenzaba desde el mismo punto. En todas las combinaciones de modelos, las entregas más ricas redujeron consistentemente el trabajo requerido de los agentes sucesores.

Las trazas de eventos completas produjeron las mayores reducciones, mientras que las notas de resumen y las notas estructuradas también entregaron ahorros sustanciales. El efecto se manifestó en todo el benchmark, en lugar de estar impulsado por un pequeño número de casos excepcionales:

Ver Carreras emparejadas Eventos del agente solo repositorio Eventos del agente (Δ%) IC del 95% para Δ eventos Tokens de llamada (Δ%)
Qwen → Qwen
Traza bruta 181 99 41 (-59%) [-50%, -42%] 798k (-51%)
Notas de resumen 181 99 53 (-46%) [-38%, -28%] 572k (-65%)
Notas estructuradas 181 99 55 (-44%) [-34%, -24%] 646k (-60%)
Qwen → Gemma
Traza bruta 181 49 21 (-57%) [-47%, -33%] 300k (-59%)
Notas de resumen 181 49 33 (-33%) [-25%, -8%] 319k (-57%)
Notas estructuradas 181 49 39 (-20%) [-18%, -1%] 317k (-57%)
Qwen → Devstral
Traza bruta 181 175 73 (-58%) [-45%, -22%] 1.65M (-58%)
Notas de resumen 181 175 123 (-30%) [-28%, -15%] 2.28M (-42%)
Notas estructuradas 181 175 125 (-29%) [-28%, -17%] 2.29M (-42%)

Para confirmar que el efecto no estaba impulsado por un pequeño número de casos inusuales, los investigadores compararon cada entrega rica en contexto con una entrega solo repositorio equivalente que comenzaba desde el mismo punto. Las reducciones permanecieron consistentes en todas las combinaciones de modelos, lo que indica que los beneficios reflejan un patrón significativo, en lugar de unos pocos ejemplos excepcionales.

Llévatelo…

En resumen, los autores encontraron que cuando un agente de IA le entrega una tarea a otro, incluso notas simples ayudan al segundo agente a continuar más eficientemente.

Los registros completos de lo que sucedió funcionan mejor, pero cualquier información de entrega es mejor que dejar que el sucesor reconstruya todo a partir del código solo; y los resultados anteriores ilustran que el enfoque de “traza bruta” inevitablemente tiene un mayor costo de tokens.

Conclusión

Aunque el artículo en sí está dirigido estrictamente a investigadores colegas, con un atractivo limitado para el lector casual, el nuevo trabajo aborda uno de los problemas más interesantes y apremiantes en cuanto al estado actual del arte en las interfaces y protocolos humanos>IA.

Uno esperaría que los paradigmas desarrollados y las ideas obtenidas en este tipo de exploración podrían eventualmente extenderse a un contexto más amplio de uso de IA que el de la codificación agente.

Una posible ruta de exploración adicional podría ser que los proyectos futuros consideren formas de evaluar qué nivel de documentación podría considerarse mínimo para un proyecto particular, basado en sus características y caso de uso. Sin embargo, incluso esta funcionalidad, que ayudaría a racionalizar el gasto de tiempo y dinero, cuesta tiempo y dinero; y así, el dilema presupuestario involucrado en los escenarios de documentación sigue siendo difícil de evitar.

 

* Personalmente, para sesiones de ChatGPT que se vuelven pesadas con retrasos y contexto excesivo, he recurrido recientemente a exportar (con cierta dificultad) un PDF limpio de la charla y usarlo como punto de partida para una nueva sesión, que se convierte en ‘parte 2’.

Desafortunadamente, este no es el artículo más accesible que he leído este año, y por esta razón no puedo recomendar al lector el trabajo original, aunque los resultados resumidos siguen siendo de interés.

Publicado por primera vez el miércoles 3 de junio de 2026

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.