Angle d’Anderson

Pourquoi l’IA a du mal à reprendre une tâche inachevée

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

Bien que les agents d’IA puissent résoudre des tâches complexes, une nouvelle étude indique qu’ils ont du mal à continuer le travail commencé par un autre, ce qui entraîne des efforts redondants, un progrès plus lent et des coûts plus élevés.

 

L’une des tâches les plus épuisantes, mais essentielles, lorsqu’on travaille avec des agents et des interfaces d’IA, est que l’IA a besoin d’être “mise à niveau” au début d’un échange, dans presque tous les cas.

Alors que les modèles de langage populaires tels que ChatGPT offrent un certain accès à des mémoires personnalisées “persistantes”, la mise en œuvre est généralement aléatoire ; finalement, il est généralement plus sûr d’accepter l’effort de contextualisation de la tâche pour l’IA – au moins, pour l’empêcher de “deviner” un contexte incorrect à partir de son espace latent formé.

Reprendre le relais dans le monde réel

Le défi préexiste à l’IA, bien sûr ; de nombreuses entreprises exigent déjà que le personnel maintienne une documentation concernant les processus qu’ils développent ou affinent (en partie pour un meilleur accueil, mais également pour éviter que les employés n’obtiennent un avantage).

Cependant, dans la pratique, ce sont souvent les plus grandes et les mieux financées des organisations qui honorent un engagement envers la création, la mise à jour et la maintenance de la documentation. Très souvent, à la place, les employés chargés de reprendre le travail des autres sont confrontés à une tâche de “détective” qui les oblige à déchiffrer avec soin la chronologie qui a conduit au travail abandonné qu’ils viennent de recevoir.

Il va sans dire que la documentation immaculée économiserait des jours, des semaines ou même des mois de travail – si seulement elle était une proposition financièrement rationnelle.

Cependant, lorsque les agents d’IA sont les opérateurs en question, il peut y avoir une plus grande marge de manœuvre pour résoudre potentiellement le problème.

Passez-moi le relais

Ce fardeau de “non-documentation” est quantifié dans un nouveau document de recherche américain, qui appelle le problème endettement de passation.

Si l’endettement technique est le syndrome où les solutions techniques rapides et bon marché d’aujourd’hui conduisent à des solutions fragiles ou difficiles à maintenir demain, alors l’endettement de passation définit le coût de redécouverte – le retracing judiciaire des étapes d’un travailleur ou d’une entité qui n’est pas disponible pour conseiller (licenciement hostile, trop occupé, décédé, etc.) ou qui est incapable de conseiller (par exemple, un LLM qui a depuis longtemps supprimé le contexte qui a conduit à l’état actuel du travail).

Le nouveau document – une collaboration entre des chercheurs indépendants et des chercheurs affiliés à l’Université d’État de Géorgie – traite de l’endettement de passation dans le contexte des agents de codage chargés de reprendre là où une autre session, une personne ou une entité a laissé tomber dans un codebase.

L’un des objectifs de ce travail est d’établir exactement combien de documentation est nécessaire pour réduire l’endettement de passation, et quels procédures et protocoles pourraient être recommandés pour être adoptés comme pratique standard à l’avenir, afin de minimiser le problème.

Préoccupations budgétaires

Dans un monde idéal, on pourrait configurer la journalisation pour qu’elle soit verbose et fournir simplement au nouvel agent (celui qui reprend la tâche) les journaux liés à la tâche inachevée.

Cependant, analyser un tel volume de données pour en faire des données utiles serait à la fois chronophage et consommerait le budget de jetons – ainsi que des contraintes d’espace de stockage.

Ceci est un problème budgétaire, car l’utilisation de dumps bruts est épuisante, tandis que l’utilisation de journaux ciblés est moins confuse, mais nécessite un engagement préalable de ressources.

Des notes appropriées et dédiées seraient très efficaces pour mettre un “artiste de la reprise” à niveau, mais au prix d’un engagement d’effort encore plus grand – un effort qui peut ne jamais être nécessaire, si la logique du travail s’avère finalement évidente, ou si le travail est abandonné, ou jamais révisé à nouveau.

Les auteurs du nouveau travail, intitulé Endettement de passation : le coût de redécouverte lorsqu’un agent de codage reprend une tâche interrompue, ont examiné tous ces scénarios et ont adapté des modèles de tâches existants à de nouvelles façons de quantifier et d’aborder l’endettement de passation. Même si le travail concerne spécifiquement les agents de codage, il peut néanmoins indiquer des voies utiles à suivre dans des contextes d’IA plus larges et dans les politiques de documentation.

Les auteurs déclarent :

‘L’endettement de passation se produit lorsque un agent fait des progrès visibles mais laisse un état que son successeur ne peut pas continuer facilement, comme des éditions non expliquées, des fichiers de déchets, des hypothèses cachées ou des preuves de validation manquantes.

‘Une métrique basée uniquement sur la résolution finale ne peut pas faire la distinction entre la redécouverte coûteuse et la continuation efficace.

‘Deux agents prédécesseurs peuvent laisser le même référentiel de vérification, mais leurs successeurs peuvent faire face à des coûts de continuation très différents : l’un peut continuer immédiatement, tandis que l’autre doit passer de nombreuses interactions d’outils à redécouvrir l’intention à partir de fichiers de déchets et d’historiques de commandes incomplets.’

Méthode

Les auteurs définissent prédécesseur comme l’agent précédent (celui qui a initié ou réalisé le travail pour la dernière fois) et successeur comme l’agent actuel (celui chargé de reprendre le travail),

À l’appui d’un référentiel conçu pour mesurer le coût de transfert de tâches de développement de logiciels inachevées entre agents, 75 tâches de SWE-bench Verified ont été converties en 181 scénarios de passation, chacun représentant un point où le travail avait été interrompu et transmis à un agent successeur. Trois modèles de successeurs différents ont ensuite été testés sur 2 172 prises de relais.

Les familles de modèles utilisées, et variément mélangées dans ces tests de passation, étaient Qwen, Gemma et Devstral.

Les expériences ont examiné quatre niveaux d’informations héritées : dans le paramètre le plus restrictif, le successeur n’a reçu que l’état du référentiel (en fait, en entrant dans une “zone de désastre” non documentée). Les autres paramètres ont fourni un contexte de plus en plus détaillé, allant des traces d’activité et des historiques de commandes à des résumés compacts décrivant ce qui avait déjà été tenté et appris :

Seulement le référentiel

Le successeur reçoit uniquement le référentiel et la description de la tâche, sans aucun enregistrement des actions précédentes, des décisions ou des tentatives échouées.

Trace brute

Le successeur reçoit l’historique complet du prédécesseur, exposant chaque commande, observation, édition, réussite et échec.

Notes de résumé

Le successeur reçoit un résumé en langage naturel généré à partir de l’historique d’activité du prédécesseur, condensant les informations clés en prose.

Notes structurées

Le successeur reçoit un document de passation compact contenant des champs standardisés décrivant l’état de la tâche, les modifications apportées et les résultats de validation.

Plutôt que de se concentrer uniquement sur le fait que la tâche a été résolue, l’étude a été conçue pour mesurer le coût de la continuation elle-même, en prêtant attention à l’utilisation des outils, à la consommation de jetons et à la quantité d’efforts nécessaires pour reconstruire la logique derrière le travail précédent.

Trois définitions de détection de point de passation et trois états de passation ont été définis pour les expériences :

Détection de point de passation États de passation
Après la première édition de source. Après la première modification de code. Le premier agent a commencé à travailler mais n’a pas encore vérifié si la modification fonctionne réellement. Besoin d’achèvement. La tâche est inachevée, et le successeur doit continuer à travailler pour atteindre une solution correcte.
Après le premier résultat de validation. Le premier agent a déjà exécuté un test ou une étape de validation, fournissant certaines preuves sur les progrès. Déjà résolu et préservé. La tâche a été effectivement terminée, et le rôle du successeur est d’éviter de la casser.
Après la première édition post-échec. Un test a échoué et le premier agent a déjà tenté de répondre en apportant une autre modification. Comportement existant cassé. Quelque chose qui fonctionnait auparavant est maintenant cassé.

Données et tests

Pour créer des scénarios de passation réalistes, le référentiel des auteurs a été construit à partir de 75 tâches de développement de logiciels issues de SWE-Bench Verified, avec un accent sur les problèmes qui prennent généralement entre 15 minutes et 4 heures pour être résolus.

Plutôt que d’évaluer uniquement les tâches terminées, les chercheurs ont capturé plusieurs points de contrôle intermédiaires pendant le travail, créant des situations où un agent d’IA devait reprendre le travail d’un autre :

Construction du référentiel de prise de relais. Soixante-quinze tâches de SWE-bench Verified ont été étendues à 181 points de passation s'étendant sur trois étapes de travail, étiquetées selon l'état du référentiel au moment de la prise de relais, et évaluées sous quatre conditions de partage d'informations, produisant 2 172 exécutions de prise de relais d'agent successeur au total. Source - https://arxiv.org/pdf/2606.02875

Construction du référentiel de prise de relais. Soixante-quinze tâches de SWE-bench Verified ont été étendues à 181 points de passation s’étendant sur trois étapes de travail, étiquetées selon l’état du référentiel au moment de la prise de relais, et évaluées sous quatre conditions de partage d’informations, produisant 2 172 exécutions de prise de relais d’agent successeur au total. Source

Parce que chaque tâche pouvait générer plusieurs points de passation, et que chaque passation était testée en utilisant quatre formes différentes d’informations transmises, le référentiel s’est rapidement étendu, avec un ensemble de données final composé de 181 tâches de passation distinctes, et 724 évaluations de prise de relais pour chaque modèle de successeur, produisant 2 172 exécutions de prise de relais au total sur les trois systèmes d’IA testés.

Un environnement de type OpenHands pour les agents de codage a été utilisé pour les tests, mettant en vedette des actions de terminal, un gel de référentiel au moment de la passation, des éditions de fichiers et une validation officielle du référentiel SWE-Bench.

Dans l’étude principale, les points de passation provenaient tous de sessions de prédécesseur basées sur Qwen, afin de fournir un point de départ fixe pour évaluer la différence entre les diverses combinaisons d’agents et les divers scénarios.

Les paires de prise de relais testées étaient Qwen vers Qwen ; Qwen vers Gemma ; et Qwen vers Devstral.

La trace brute a produit les plus grandes réductions d’effort du successeur, réduisant les événements de l’agent de 57 à 59 %, tandis que les notes de résumé et les notes structurées ont réduit les événements de 20 à 46 %. L’utilisation de jetons de prompt a également diminué dans toutes les approches, avec des réductions allant de 42 à 63 % :

Vue Exécutions Taux de résolution (Δ pp) Événements de l’agent (Δ%) Jetons de prompt (Δ%)
Qwen → Qwen
Seulement le référentiel 181 46,4% 99 1,63 M
Trace brute 181 52,5% (+6,1 pp) 41 (-59%) 811 k (-50%)
Notes de résumé 181 51,4% (+5,0 pp) 53 (-46%) 602 k (-63%)
Notes structurées 181 50,8% (+4,4 pp) 55 (-44%) 660 k (-60%)
Qwen → Gemma
Seulement le référentiel 181 42,5% 49 738 k
Trace brute 181 49,2% (+6,6 pp) 21 (-57%) 300 k (-59%)
Notes de résumé 181 44,2% (+1,7 pp) 33 (-33%) 319 k (-57%)
Notes structurées 181 43,6% (+1,1 pp) 39 (-20%) 317 k (-57%)
Qwen → Devstral
Seulement le référentiel 181 34,3% 175 3,94 M
Trace brute 181 49,2% (+14,9 pp) 73 (-58%) 1,66 M (-58%)
Notes de résumé 181 43,6% (+9,4 pp) 123 (-30%) 2,30 M (-42%)
Notes structurées 181 44,8% (+10,5 pp) 125 (-29%) 2,30 M (-42%)

Sous les passations seulement le référentiel, les agents successeurs ont dû passer des interactions supplémentaires pour reconstruire l’intention du prédécesseur, les preuves précédentes et les approches échouées. La trace brute, les notes de résumé et les notes structurées ont transmis une partie de ces informations directement, réduisant la quantité de redécouverte requise, bien qu’au prix de prompts initiaux plus importants.

Pour tester si les gains étaient réels, chaque passation enrichie a été comparée à une passation seulement le référentiel à partir du même point. À travers toutes les combinaisons de modèles, les passations plus riches ont régulièrement réduit le travail requis des agents successeurs.

Les traces d’événements complètes ont produit les plus grandes réductions, tandis que les notes de résumé et les notes structurées ont également apporté des économies substantielles. L’effet s’est produit à travers le référentiel et non en raison d’un petit nombre de cas exceptionnels :

Vue Exécutions appariées Événements de l’agent de référentiel uniquement Événements de l’agent (Δ%) Intervalle de confiance à 95% pour Δ Événements Jetons de prompt (Δ%)
Qwen → Qwen
Trace brute 181 99 41 (-59%) [-50%, -42%] 798 k (-51%)
Notes de résumé 181 99 53 (-46%) [-38%, -28%] 572 k (-65%)
Notes structurées 181 99 55 (-44%) [-34%, -24%] 646 k (-60%)
Qwen → Gemma
Trace brute 181 49 21 (-57%) [-47%, -33%] 300 k (-59%)
Notes de résumé 181 49 33 (-33%) [-25%, -8%] 319 k (-57%)
Notes structurées 181 49 39 (-20%) [-18%, -1%] 317 k (-57%)
Qwen → Devstral
Trace brute 181 175 73 (-58%) [-45%, -22%] 1,65 M (-58%)
Notes de résumé 181 175 123 (-30%) [-28%, -15%] 2,28 M (-42%)
Notes structurées 181 175 125 (-29%) [-28%, -17%] 2,29 M (-42%)

Pour confirmer que l’effet n’était pas dû à un petit nombre de cas exceptionnels, les chercheurs ont comparé chaque passation à une passation seulement le référentiel équivalente à partir du même point. Les réductions sont restées cohérentes à travers toutes les combinaisons de modèles, indiquant que les avantages reflètent un modèle significatif, plutôt que quelques exemples exceptionnels.

En résumé…

En bref, les auteurs ont constaté que lorsque l’IA passe une tâche à une autre, même des notes simples aident la deuxième IA à continuer plus efficacement.

Des enregistrements complets de ce qui s’est passé fonctionnent le mieux, mais toute information de passation est meilleure que de laisser le successeur reconstruire tout à partir du code seul ; et les résultats ci-dessus illustrent que l’approche de trace brute “full fat” a inévitablement un coût de jeton plus élevé.

Conclusion

Bien que l’article lui-même s’adresse strictement aux chercheurs pairs, avec un attrait limité pour le lecteur occasionnel, le nouveau travail aborde l’un des problèmes les plus intéressants et les plus pressants en ce qui concerne l’état actuel de l’art des interfaces et des protocoles humain-IA.

On pourrait espérer que les paradigmes développés et les connaissances acquises dans ce type d’exploration pourraient éventuellement s’étendre à un contexte plus large d’utilisation de l’IA que celui des agents de codage.

Un autre axe d’exploration pourrait être que les projets futurs examinent les moyens d’évaluer quel niveau de documentation pourrait être considéré comme minimum pour un projet particulier, en fonction de ses caractéristiques et de son cas d’utilisation. Cependant, même cette fonctionnalité, qui contribuerait à rationaliser la dépense de temps et d’argent, coûte du temps et de l’argent ; et ainsi, le dilemme budgétaire impliqué dans les scénarios de documentation reste difficile à éviter.

 

* Personnellement, pour les sessions ChatGPT qui sont alourdies par des retards et un contexte excessif, j’ai récemment pris l’habitude d’exporter (avec difficulté) un PDF propre de la conversation et de l’utiliser comme point de départ pour une nouvelle session, qui devient la ‘partie 2’.

Malheureusement, ce n’est pas le document le plus abordable que j’ai lu cette année, et pour cette raison, je ne peux pas recommander au lecteur de se référer au travail source, bien que les résultats digérés restent intéressants.

Premièrement publié mercredi 3 juin 2026

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.