Andersons vinkel
Hvorfor AI kæmper med at overtage en halvfærdig opgave

Selvom AI-agenter kan løse komplekse opgaver, viser en ny studie, at de kæmper med at fortsætte arbejdet, der er påbegyndt af en anden, hvilket fører til duplikeret indsats, langsommere fremgang og større omkostninger.
En af de mest udmattende, men væsentlige opgaver i forbindelse med AI-agenter og -grænseflader er, at AI skal “få fat” i begyndelsen af en udveksling, næsten i alle tilfælde.
Mens populære sprogmodeller som ChatGPT faktisk tilbyder adgang til “varige” brugerdefinerede minder, er implementeringen som regel en hit-or-miss-sag; til sidst er det normalt sikrere at acceptere indsatsen for at kontekstualisere* opgaven for AI – i hvert fald for at forhindre, at den “gætter” en forkert kontekst fra sin trænede latente rum.
At overtage virkelige udfordringer
Udfordringen er ikke ny; mange virksomheder kræver allerede, at medarbejderne opretholder dokumentation om processer, som de udvikler eller forfiner (delvist for en glattere ombordning, men sandsynligvis også for at undgå, at medarbejdere får for stor indflydelse).
Men i praksis er det ofte kun større og bedre finansierede organisationer, der overholder et engagement om at oprette, opdatere og vedligeholde dokumentation. Meget ofte får medarbejdere, som skal overtage arbejdet fra andre, i stedet en “detektiv”-opgave, som kræver, at de omhyggeligt afkoder tidslinjen, der førte til det arbejde, de nu er blevet tildelt.
Uden tvivl ville perfekt dokumentation spare dage, uger eller endda måneder med arbejde – hvis det blot var en økonomisk rationel mulighed.
Men hvor AI-agenter er de operative i spørgsmålet, kan der måske være større mulighed for at løse problemet.
At overdrage
Denne byrde af “udokumentation” kvantificeres i en ny forskningsrapport fra USA, som kalder problemet overdragelsesgæld.
Hvis teknisk gæld er syndromet, hvor hurtige og billige tekniske løsninger i dag fører til skrøbelige eller svært vedligeholdelige løsninger i fremtiden, definerer overdragelsesgæld omkostningerne ved genopdagelse – den retsmedicinske gensporing af de skridt, som en arbejder eller enhed, der ikke er til rådighed for at rådgive (fjendtlig afskedigelse, for travlt, død osv.), eller på anden vis er ude af stand til at rådgive (for eksempel en LLM, der for længst har dumpet konteksten, der førte til den nuværende tilstand af arbejdet).
Den nye rapport† – et samarbejde mellem uafhængige og Georgia State University-tilknyttede forskere – beskæftiger sig med overdragelsesgæld, som det gælder for kodningsagenter, der er tildelt at overtage, hvor en anden session, person eller enhed stoppede i en kodebase.
En af målene med arbejdet er at fastlægge, hvor meget dokumentation der er nødvendig for at reducere overdragelsesgæld, og hvilke procedurer og protokoller der kan anbefales som standardpraksis i fremtiden for at minimere problemet.
Økonomiske bekymringer
I en ideel verden kunne man indstille logføring til verbose og bare føde den nybegynderagent (den, der overtager opgaven) logfilerne i forbindelse med den ufuldendte opgave.
Men at parsere sådan en mængde data til brugbar data ville være både tidskrævende og ville også påvirke token-budgettet – samt bringe lagringsrum-begrænsninger i spil.
Dette er et økonomisk problem, fordi brug af rå dump er udmattende, mens brug af kuraterede logfiler er mindre forvirrende, men kræver en forhåndsgående forpligtelse af ressourcer.
Ordentlige, dedikerede noter ville være meget effektive til at få en “opkøbskunstner” op at køre, men til en pris af en endnu større forpligtelse af indsats – indsats, der måske aldrig bliver nødvendig, hvis arbejdets logik skulle vise sig at være selvindlysende, eller hvis arbejdet bliver opgivet eller aldrig revideret igen.
Forfatterne af det nye arbejde, titlen Overdragelsesgæld: Genopdagelsesomkostningerne, når kodningsagenter overtager afbrudte opgaver, har overvejet alle disse scenarier og har tilpasset eksisterende opgavemodeller til nye måder at kvantificere og løse overdragelsesgæld på. Selvom arbejdet specifikt handler om kodningsagenter, kan det måske alligevel vise vej til nyttige fremadrettede løsninger i bredere AI-sammenhænge og i logistikken for dokumentationspolitikker.
Forfatterne fastslår:
‘Overdragelsesgæld opstår, når en agent viser synlige fremskridt, men efterlader en tilstand, som en efterfølger ikke let kan fortsætte fra, såsom uforklarede redigeringer, skratchfiler, skjulte antagelser eller manglende valideringsbevis.
‘En metode, der kun er baseret på endelig løsning, kan ikke skelne mellem dyre genopdagelser og effektiv fortsættelse.
‘To forgængeragenter kan efterlade den samme checkpoint-repository, men deres efterfølgere kan stå over for meget forskellige fortsættelsesomkostninger: en kan fortsætte med det samme, mens en anden skal bruge mange værktøjsinteraktioner på at genskabe intentionen fra skratchfiler og ufuldendt kommandohistorik.’
Metode
Forfatterne definerer forgænger som den forhåndsgående agent (den, der oprindeligt eller sidst udførte arbejdet) og efterfølger som den nuværende agent (den, der er tildelt at overtage arbejdet),
Til støtte for en benchmark, der er designet til at måle omkostningerne ved at overdrage ufuldendte software-ingeniør-opgaver mellem agenter, blev 75 opgaver fra SWE-bench Verified omdannet til 181 overdragelsesscenarioer, hver repræsentant for et punkt, hvor arbejdet var blevet afbrudt og overdraget til en efterfølgeragent. Tre forskellige efterfølgermodeller blev derefter testet over 2.172 overtagelsesforsøg.
Modelfamilierne, der blev brugt, og som blev blandet i disse overdragelses-test, var Qwen, Gemma og Devstral.
Eksperimenterne undersøgte fire niveauer af arvet information: i den mest restriktive indstilling modtog efterfølgeren kun tilstanden af repository (effektivt gående ind i et udokumenteret “katastrofeområde”). Andre indstillinger tilbød stadig mere detaljeret kontekst, fra aktivitetsspor og kommandohistorik til kompakte resumerer, der beskrev, hvad der allerede var blevet forsøgt og lært:
| Repository kun
Efterfølgeren modtager kun repository og opgavebeskrivelse, uden nogen optegnelse over tidligere handlinger, beslutninger eller fejl. |
Rå spor
Efterfølgeren modtager forgængers fulde historik, hvor hver kommando, observation, redigering, succes og fejl er åben. |
| Resumeringsnoter
Efterfølgeren modtager en naturlig-sproglig resumé, der er genereret fra forgængers aktivitetshistorik, og som kondenserer vigtig information i prosa. |
Strukturerede noter
Efterfølgeren modtager en kompakt overdragelsesdokument, der indeholder standardiserede felter, der beskriver opgavestatus, ændringer og valideringsresultater. |
I stedet for at fokusere kun på, om opgaven blev løst, var studiet designet til at måle omkostningerne ved fortsættelse i sig selv, med opmærksomhed på værktøjsbrug, tokenforbrug og den indsats, der kræves for at genskabe den bagvedliggende tankegang bag tidligere arbejde.
Tre overdragelsespunktdetektions-definitioner og tre overdragelsesstater blev defineret for eksperimenterne:
| Overdragelsespunktdetektion | Overdragelsesstater |
|---|---|
| Efter første kilde-redigering. Efter første kodeændring. Første agent har påbegyndt arbejdet, men har endnu ikke kontrolleret, om ændringen faktisk virker. | Kræver afslutning. Opgaven er ufuldendt, og efterfølgeren må fortsætte arbejdet for at nå en korrekt løsning. |
| Efter første valideringsresultat. Første agent har allerede kørt en test eller valideringsskridt, hvilket giver nogen bevis for fremskridt. | Allerede løst og bevaret. Opgaven er effektivt løst, og efterfølgerens job er at undgå at ødelægge den. |
| Efter første fejl-redigering. En test er fejlet, og første agent har allerede forsøgt at reagere ved at foretage en anden ændring. | Eksisterende adfærd ødelagt. Noget, der fungerede før, er nu ødelagt. |
Data og tests
For at skabe realistiske overdragelsesscenarioer blev forfatternes benchmark bygget fra 75 software-ingeniør-opgaver fra SWE-Bench Verified, med fokus på problemer, der typisk tager mellem 15 minutter og 4 timer at løse.
I stedet for kun at evaluere fuldendte opgaver, fik forskerne fanget multiple mellemstats-checkpoints under arbejdet og skabte situationer, hvor en AI-agent skulle overtage fra en anden:

Konstruktion af overtager-benchmark. 75 SWE-bench Verified-opgaver blev udvidet til 181 overdragelsespunkter, der spænder over tre arbejdssfaser, og blev mærket efterlagt repository-tilstand ved overtager-tidspunkt og blev vurderet under fire informationsdelingsbetingelser, hvilket resulterede i 2.172 samlede efterfølger-agent-overtagelsesløb. Kilde
Fordi hver opgave kunne generere flere overdragelsespunkter, og hver overdragelse blev testet ved hjælp af fire forskellige former for overført information, udvidede benchmarket sig hurtigt, og den endelige dataset bestod af 181 distinkte overdragelsesopgaver og 724 overtager-evalueringer for hver efterfølgermodel, hvilket resulterede i 2.172 overtager-løb over de tre testede AI-systemer.
En OpenHands-lignende kodningsagent-miljø blev brugt til testene, med terminal-handlinger, repository-frysning ved overdragelsespunkter, fil-redigering og officiel validering fra SWE-Bench-benchmark.
I den primære studie udsprang alle overdragelsespunkter fra Qwen-baserede forgængerløb, for at give en fast startposition til at evaluere forskellen mellem forskellige agent-kombinationer og diverse scenarier.
Overdragelsespar, der blev testet, var Qwen-til-Qwen; Qwen-til-Gemma; og Qwen-til-Devstral.
Rå spor producerede den største reduktion i efterfølger-indsats, ved at reducere agent-hændelser med 57-59%, mens resumeringsnoter og strukturerede noter reducerede hændelser med 20-46%. Prompt-token-forbrug faldt også over alle tre tilgange, med reduktioner på 42-63%:
| Visning | Kørsler | Løsningsfrekvens (Δ pp) | Agent-hændelser (Δ%) | Prompt-token (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Repository kun | 181 | 46,4% | 99 | 1,63M |
| Rå spor | 181 | 52,5% (+6,1 pp) | 41 (-59%) | 811k (-50%) |
| Resumeringsnoter | 181 | 51,4% (+5,0 pp) | 53 (-46%) | 602k (-63%) |
| Strukturerede noter | 181 | 50,8% (+4,4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| Repository kun | 181 | 42,5% | 49 | 738k |
| Rå spor | 181 | 49,2% (+6,6 pp) | 21 (-57%) | 300k (-59%) |
| Resumeringsnoter | 181 | 44,2% (+1,7 pp) | 33 (-33%) | 319k (-57%) |
| Strukturerede noter | 181 | 43,6% (+1,1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| Repository kun | 181 | 34,3% | 175 | 3,94M |
| Rå spor | 181 | 49,2% (+14,9 pp) | 73 (-58%) | 1,66M (-58%) |
| Resumeringsnoter | 181 | 43,6% (+9,4 pp) | 123 (-30%) | 2,30M (-42%) |
| Strukturerede noter | 181 | 44,8% (+10,5 pp) | 125 (-29%) | 2,30M (-42%) |
Under Repository kun-overdragelser skulle efterfølger-agenter bruge ekstra interaktioner på at genskabe forgængers intention, tidligere bevis og fejlede forsøg. Rå spor, resumeringsnoter og strukturerede noter overførte en del af denne information direkte, reducerende mængden af genopdagelse, der kræves, omend til en højere initial prompt-omkostning.
For at teste, om gevinsten var ægte, blev hver kontekst-rig overdragelse sammenlignet med en repository kun-overdragelse, der startede fra samme punkt. Over alle model-par blev rigere overdragelser konsekvent reduceret arbejdet, der krævedes fra efterfølger-agenter.
Fulde hændelsesspor producerede den største reduktion, mens resumeringsnoter og strukturerede noter også leverede betydelige besparelser. Effekten dukkede op over hele benchmarket og ikke kun på grund af en håndfuld outliers:
| Visning | Matchede kørsler | Repo-kun agent-hændelser | Agent-hændelser (Δ%) | 95% CI for Δ-hændelser | Prompt-token (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Rå spor | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| Resumeringsnoter | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| Strukturerede noter | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| Rå spor | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| Resumeringsnoter | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| Strukturerede noter | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| Rå spor | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1,65M (-58%) |
| Resumeringsnoter | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2,28M (-42%) |
| Strukturerede noter | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2,29M (-42%) |
For at bekræfte, at effekten ikke blev drevet af en håndfuld usædvanlige tilfælde, sammenlignede forskerne hver overdragelse med en repository kun-overdragelse, der startede fra samme punkt. Reduktionerne forblev konsekvent over alle model-par, hvilket tyder på, at fordelene afspejler en meningsfuld mønster og ikke blot et par enkelttilfælde:
Tagen væk…
For at sige det kort†, fandt forfatterne ud af, at når en AI overdrager en opgave til en anden, hjælper selv simple noter den anden AI med at fortsætte mere effektivt.
Fulde optegnelser over, hvad der skete, virker bedst, men enhver form for overdragelsesinformation er bedre end at lade efterfølgeren genskabe alt fra koden alene; og resultaterne ovenfor viser, at den “fuldfede” rå log-tilgang uundgåeligt har en højere token-omkostning.
Konklusion
Selvom selv rapporten er rettet mod peer-forskere med begrænset appel til den almindelige læser, behandler det nye arbejde alligevel et af de mest interessante og presserende problemer i forhold til den nuværende tilstand af kunst i menneske-AI-grænseflader og -protokoller.
Man kunne ønske, at paradigmerne, der er udviklet, og indsigt, der er erhvervet i denne type udforskning, måske en dag kan udvides til en bredere kontekst for AI-brug end blot agent-kodning.
En yderligere vej til udforskning kunne være for fremtidige projekter at overveje måder at evaluere, hvilket niveau af dokumentation, der kan anses for minimum for et bestemt projekt, baseret på dets karakteristika og brugsområde. Men selv denne funktionalitet, der ville hjælpe med at rationalisere udgifter af tid og penge, koster selv tid og penge; og så forbliver den budgetmæssige dilemma, der er involveret i dokumentationsscenarier, svær at undgå.
* Personligt har jeg for nylig, i forbindelse med ChatGPT-sessioner, der er belastet med forsinkelse og overmængde af kontekst, taget til at eksportere (med nogen besvær) en ren PDF af chatten og bruge den som udgangspunkt for en ny session, der bliver “del 2”.
† Desværre er dette ikke den mest tilgængelige rapport, jeg har læst i år, og af denne grund kan jeg ikke anbefale læseren at gå til kildearbejdet, selvom de fordøjede resultater forbliver interessante.
Først udgivet onsdag, 3. juni 2026












