Andersons vinkel

Varför AI har svÄrt att ta över en halvfÀrdig uppgift

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

Även om AI-agenter kan lösa komplexa uppgifter, visar en ny studie att de har svårt att fortsätta arbetet som påbörjats av en annan, vilket leder till dubblerad ansträngning, långsammare framsteg och högre kostnader.

 

En av de mest utmattande men väsentliga uppgifterna när man arbetar med AI-agenter och gränssnitt är att AI behöver “komma i gång” från början av en utbyte, i nästan alla fall.

Medan populära språkmodeller som ChatGPT erbjuder viss tillgång till “beständiga” anpassade minnen, är implementationen vanligtvis en hit- eller miss-affär; till slut är det vanligtvis säkrare att acceptera ansträngningen att ge sammanhanget för uppgiften till AI – åtminstone för att förhindra att den “gissar” ett felaktigt sammanhang från dess tränade latenta utrymme.

Att ta över i den verkliga världen

Uppgiften föregår AI, naturligtvis; många företag kräver redan att personalen upprätthåller dokumentation om processer som de utvecklar eller förfinar (delvis för smidigare ombordstigning, men också för att undvika att anställda får övertag).

Men i praktiken är det ofta bara större och bättre finansierade organisationer som hedrar ett åtagande att skapa, uppdatera och underhålla dokumentation. Mycket ofta, istället, får anställda som måste ta över arbetet från andra en “detektiv”-uppgift som kräver att de noggrant plockar isär tidsplanen som ledde till det övergivna arbetet de nu har fått.

Det är onödigt att säga att perfekt dokumentation skulle spara dagar, veckor eller till och med månader av arbete – om det bara vore en ekonomiskt rationell proposition.

Men där AI-agenter är de operatörer i fråga, kan det finnas större möjligheter att potentiellt lösa problemet.

Lämna över

Denna börda av “odokumentation” kvantifieras i en ny forskningsrapport från USA, som kallar problemet överlämningskostnad.

Om teknisk skuld är det tillstånd där snabba och billiga tekniska lösningar idag leder till sköra eller svåra att underhålla lösningar i framtiden, definierar överlämningskostnad kostnaden för återupptäckt – den forensiska återgången till stegen för en arbetare eller enhet som antingen inte är tillgänglig för att ge råd (fientlig uppsägning, för upptagen, död, etc.) eller på annat sätt oförmögen att ge råd (t.ex. en LLM som har dumpat sammanhanget som ledde till det nuvarande tillståndet i arbetet).

Den nya rapporten – ett samarbete mellan oberoende och Georgia State University-anslutna forskare – handlar om överlämningskostnad som den gäller kodningsagenter som har i uppgift att ta över där en annan session, person eller enhet lämnade av i en kodbas.

En av målen med arbetet är att fastställa exakt hur mycket dokumentation som behövs för att minska överlämningskostnaden, och vilka procedurer och protokoll som kan rekommenderas att anta som standardpraxis i framtiden, för att minimera problemet.

Budgetära bekymmer

I en ideal värld kunde man ställa in loggning till verbos och bara mata den nya agenten (den som tar över uppgiften) loggarna som hör till den ofullständiga uppgiften.

Men att tolka en sådan mängd data till användbar data skulle vara både tidskrävande och skulle också äta in på token-budgeten – samt medföra lagringsutrymmesbegränsningar.

Detta är ett budgetärt problem, eftersom användning av rådumpar är utmattande, medan användning av kuraterade loggar är mindre förvirrande, men kräver en tidigare åtagande av resurser.

Proper, dedikerad anteckningar skulle vara mycket effektiva för att få en “övertagande konstnär” att komma i gång, men till en kostnad av ett ännu större åtagande av ansträngning – ansträngning som kanske aldrig behövs, om logik i arbetet skulle visa sig vara självklar, eller om arbetet överges, eller aldrig revideras igen.

Författarna till det nya arbetet, med titeln Överlämningskostnad: Återupptäcktskostnaden när kodningsagenter tar över avbrutna uppgifter, har övervägt alla dessa scenarier och har anpassat befintliga uppgiftsmodeller till nya sätt att kvantifiera och hantera överlämningskostnad. Även om arbetet specifikt handlar om kodningsagenter, kan det ändå visa på användbara vägar framåt i bredare AI-sammanhang och i logistik för dokumentationspolicys.

Författarna påstår:

‘Överlämningskostnad uppstår när en agent gör synlig framsteg men lämnar tillstånd som en efterträdare inte kan fortsätta från, såsom oförklarade redigeringar, scratchfiler, dolda antaganden eller saknad valideringsbevis.

‘En mått som enbart bygger på slutgiltig lösning kan inte skilja mellan dyra återupptäckter och effektiv fortsättning.

‘Två föregående agenter kan lämna samma checkpointade repository, men deras efterträdare kan stå inför mycket olika fortsättningskostnader: en kan fortsätta omedelbart, medan en annan måste spendera många verktygsinteraktioner på att återupptäcka avsikt från scratchfiler och ofullständig kommandohistorik.’

Metod

Författarna definierar föregångsagent som den tidigare agenten (den som ursprungligen eller senast utförde arbetet) och efterträdare som den nuvarande agenten (den som har i uppgift att ta över arbetet),

I stöd för en benchmark som är utformad för att mäta kostnaden för att överföra ofullständiga mjukvaruutvecklingsuppgifter mellan agenter, omvandlades 75 uppgifter från SWE-bench Verified till 181 överlämnings-scenarier, var och en representerande en punkt där arbetet hade avbrutits och överlämnats till en efterträdare. Tre olika efterträdarmodeller testades över 2 172 övertagande försök.

Modellfamiljerna som användes, och som varierande blandades i dessa överlämnings tester, var Qwen, Gemma och Devstral.

Experimenten undersökte fyra nivåer av ärftlig information: i den mest restriktiva inställningen fick efterträdaren endast tillgång till tillståndet i repositoryt (i princip, att gå in i ett odokumenterat “katastrofområde”). Andra inställningar tillhandahöll alltmer detaljerat sammanhang, från aktivitetsspår och kommandohistorik till kompakta sammanfattningar som beskriver vad som redan hade försökt och lärt:

Repository endast

Efterträdaren får endast tillgång till repositoryt och uppgiftsbeskrivningen, utan någon post om tidigare åtgärder, beslut eller misslyckade försök.

Rå spår

Efterträdaren får den föregående agentens fullständiga historia, som exponerar varje kommando, observation, redigering, framgång och misslyckande.

Sammanfattningsanteckningar

Efterträdaren får en naturlig-språklig sammanfattning som genereras från den föregående agentens aktivitetshistoria, som kondenserar nyckelinformation till prosa.

Strukturerade anteckningar

Efterträdaren får ett kompakthandöverföringsdokument som innehåller standardiserade fält som beskriver uppgiftstillstånd, ändringar som gjorts och valideringsresultat.

Snarare än att fokusera enbart på om en uppgift till slut blev löst, var studien utformad för att mäta kostnaden för fortsättning i sig, med uppmärksamhet på verktygsanvändning, tokenkonsumtion och den mängd ansträngning som krävdes för att återuppbygga resonemanget bakom tidigare arbete.

Tre överlämningspunkt-detektions-definitioner och tre överlämningslägen definierades för experimenten:

Överlämningspunkt-detektion Överlämningslägen
Efter första källredigering. Efter första kodändring. Den första agenten har börjat arbeta men har inte ännu kontrollerat om ändringen faktiskt fungerar. Behöver slutföras. Uppgiften är ofullständig, och efterträdaren måste fortsätta arbeta för att nå en korrekt lösning.
Efter första valideringsresultat. Den första agenten har redan kört en test eller valideringssteg, vilket ger viss bevis för framsteg. Redan löst och bevarat. Uppgiften har i princip blivit löst, och efterträdarens uppgift är att undvika att bryta den.
Efter första post-felredigering. En test har misslyckats och den första agenten har redan försökt att svara genom att göra en annan ändring. Existerande beteende brutet. Något som fungerade tidigare är nu brutet.

Data och tester

För att skapa realistiska överlämnings-scenarier byggdes författarnas benchmark från 75 mjukvaruutvecklingsuppgifter från SWE-Bench Verified, med fokus på problem som vanligtvis tar mellan 15 minuter och 4 timmar att lösa.

Snarare än att utvärdera endast slutförda uppgifter, fångade forskarna flera mellanliggande kontrollpunkter under arbetet, vilket skapade situationer där en AI-agent måste ta över från en annan:

Konstruktion av övertagandebenchmarken. 75 SWE-bench Verified-uppgifter utvidgades till 181 överlÀmningspunkter som omfattar tre arbetsstadier, mÀrkta enligt repositorytillstÄnd vid övertagandetid och utvÀrderades under fyra informationsdelningsvillkor, vilket resulterade i 2 172 totala eftertrÀdar-agent-övertagande körningar. KÀlla - https://arxiv.org/pdf/2606.02875

Konstruktion av övertagandebenchmarken. 75 SWE-bench Verified-uppgifter utvidgades till 181 överlämningspunkter som omfattar tre arbetsstadier, märkta enligt repositorytillstånd vid övertagandetid och utvärderades under fyra informationsdelningsvillkor, vilket resulterade i 2 172 totala efterträdar-agent-övertagande körningar. Källa

Eftersom varje uppgift kunde generera flera överlämningspunkter, och varje överlämning testades med hjälp av fyra olika former av överförd information, utvidgades benchmarken snabbt, med den slutliga datamängden bestående av 181 distinkta överlämningsuppgifter och 724 övertagandeutvärderingar för varje efterträdarmodell, vilket resulterade i 2 172 övertagandekörningar över de tre AI-system som testades.

En OpenHands-liknande kodningsagentmiljö användes för testerna, med terminalåtgärder, repositoryfrysning vid överlämningspunkter, filredigering och officiell validering från SWE-Bench-benchmarken.

I den primära studien utgjordes alla överlämningspunkter från Qwen-baserade föregångskörningar, för att tillhandahålla en fast startpunkt för att utvärdera skillnaden mellan olika agentkombinationer och de olika scenarierna.

Övertagandeparen testades var Qwen-till-Qwen; Qwen-till-Gemma; och Qwen-till-Devstral.

Rå spår producerade den största minskningen av efterträdaransatsen, med en minskning av agenthändelser med 57-59%, medan Sammanfattningsanteckningar och Strukturerade anteckningar minskade händelserna med 20-46%. Prompt-tokenanvändningen minskade också över alla tre tillvägagångssätten, med minskningar som sträckte sig från 42-63%:

Visa Körningar Lösningsfrekvens (Δ pp) Agenthändelser (Δ%) Prompttoken (Δ%)
Qwen → Qwen
Repository endast 181 46,4% 99 1,63M
Rå spår 181 52,5% (+6,1 pp) 41 (-59%) 811k (-50%)
Sammanfattningsanteckningar 181 51,4% (+5,0 pp) 53 (-46%) 602k (-63%)
Strukturerade anteckningar 181 50,8% (+4,4 pp) 55 (-44%) 660k (-60%)
Qwen → Gemma
Repository endast 181 42,5% 49 738k
Rå spår 181 49,2% (+6,6 pp) 21 (-57%) 300k (-59%)
Sammanfattningsanteckningar 181 44,2% (+1,7 pp) 33 (-33%) 319k (-57%)
Strukturerade anteckningar 181 43,6% (+1,1 pp) 39 (-20%) 317k (-57%)
Qwen → Devstral
Repository endast 181 34,3% 175 3,94M
Rå spår 181 49,2% (+14,9 pp) 73 (-58%) 1,66M (-58%)
Sammanfattningsanteckningar 181 43,6% (+9,4 pp) 123 (-30%) 2,30M (-42%)
Strukturerade anteckningar 181 44,8% (+10,5 pp) 125 (-29%) 2,30M (-42%)

Under Repository endast-överlämningar, var efterträdaragenter tvungna att spendera extra interaktioner på att återuppbygga föregångsavsikt, tidigare bevis och misslyckade försök. Rå spår, Sammanfattningsanteckningar och Strukturerade anteckningar överförde en del av den informationen direkt, vilket minskade mängden återupptäckt som krävdes, även om det var till en kostnad av större initiala prompter.

För att testa om vinsterna var äkta, matchades varje kontextrik övertagande mot en motsvarande repository endast-övertagande som startade från samma punkt. Över alla modellpar minskade rikare övertaganden konsekvent den mängd arbete som krävdes från efterträdaragenter.

Fullständiga händelsespår producerade de största minskningarna, medan sammanfattnings- och strukturerade anteckningar också levererade betydande besparingar. Effekten syntes över hela benchmarken snarare än att drivas av ett fåtal udda fall:

Visa Matchade körningar Repo-endast agenthändelser Agenthändelser (Δ%) 95% CI för Δ händelser Prompttoken (Δ%)
Qwen → Qwen
Rå spår 181 99 41 (-59%) [-50%, -42%] 798k (-51%)
Sammanfattningsanteckningar 181 99 53 (-46%) [-38%, -28%] 572k (-65%)
Strukturerade anteckningar 181 99 55 (-44%) [-34%, -24%] 646k (-60%)
Qwen → Gemma
Rå spår 181 49 21 (-57%) [-47%, -33%] 300k (-59%)
Sammanfattningsanteckningar 181 49 33 (-33%) [-25%, -8%] 319k (-57%)
Strukturerade anteckningar 181 49 39 (-20%) [-18%, -1%] 317k (-57%)
Qwen → Devstral
Rå spår 181 175 73 (-58%) [-45%, -22%] 1,65M (-58%)
Sammanfattningsanteckningar 181 175 123 (-30%) [-28%, -15%] 2,28M (-42%)
Strukturerade anteckningar 181 175 125 (-29%) [-28%, -17%] 2,29M (-42%)

För att bekräfta att effekten inte drevs av ett fåtal ovanliga fall, jämfördes varje övertagande med en motsvarande repository endast-övertagande som startade från samma punkt. Minskningarna förblev konsekventa över alla modellpar, vilket indikerar att vinsterna reflekterar ett meningsfullt mönster, snarare än ett fåtal exceptionella exempel.

Ta det bort…

I korthet, fann författarna att när en AI överlämnar en uppgift till en annan, hjälper även enkla anteckningar den andra AI att fortsätta mer effektivt.

Fullständiga register över vad som hände fungerar bäst, men alla former av överlämningsinformation är bättre än att lämna efterträdaren att återuppbygga allt från koden ensam; och resultaten ovan visar att “fullfeta” råloggtillvägagångssättet oundvikligen har en högre tokenkostnad.

Slutsats

Även om själva artikeln är strikt riktad till peer-forskare, med begränsad appeal för den vanliga läsaren, behandlar det nya arbetet ändå ett av de mest intressanta och pressande problemen i förhållande till den nuvarande tillståndet i konst och gränssnitt för människa-AI.

Man kan hoppas att paradigmerna som utvecklats och insikterna som vunnits i denna typ av utforskning kan utvidgas till en bredare kontext av AI-användning än bara agenter för kodning.

En ytterligare utforskningsväg kan vara för framtida projekt att överväga sätt att utvärdera vilken nivå av dokumentation som kan anses vara minimum för ett visst projekt, baserat på dess egenskaper och användningsfall. Men även denna funktion, som skulle hjälpa till att rationalisera utgifter av tid och pengar, kostar tid och pengar; och så förblir budgetära gåtan i dokumentationsscenarier svår att undvika.

 

* Personligen, för ChatGPT-sessioner som blir belastade med fördröjning och överdriven kontext, har jag nyligen börjat exportera (med viss svårighet) en ren PDF av chatten och använt den som en utgångspunkt för en ny session, som blir “del 2”.

Tyvärr är detta inte den mest tillgängliga rapporten jag har läst i år, och av denna anledning kan jag inte rekommendera läsaren till källarbetet, även om de sammanfattade resultaten förblir av intresse.

Publicerad första gången onsdag, 3 juni 2026

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.