Andersonův úhel
Proč AI zápasí s převzetím poloviny dokončené úkolu

Přestože AI agenti mohou řešit složité úkoly, nová studie ukazuje, že mají potíže s pokračováním práce započaté jiným, což vede k duplikovanému úsilí, pomalejšímu pokroku a vyšším nákladům.
Jedním z nejvíce vyčerpávajících, ale zároveň nezbytných úkolů při práci s AI agenty a rozhraními je skutečnost, že AI potřebuje být “seznámen” s úkolem na začátku výměny, téměř ve všech případech.
Zatímco populární jazykové modely, jako je ChatGPT, nabízejí nějaký přístup k “trvalým” vlastním vzpomínkám, implementace je obvykle náhodná; nakonec je obvykle bezpečnější akceptovat úsilí kontextualizace úkolu pro AI – alespoň aby se zabránilo “hádaní” špatného kontextu z jeho trénovaného latentního prostoru.
Převzetí reálného úkolu
Tato výzva předchází AI, samozřejmě; mnoho společností již vyžaduje, aby zaměstnanci udržovali dokumentaci týkající se procesů, které vyvíjejí nebo zdokonalují (částečně pro hladší nástup, ale zřejmě také proto, aby se zabránilo zaměstnancům získat výhodu).
V praxi je to však často pouze větší a lépe financované organizace, které dodržují závazek vytvářet, aktualizovat a udržovat dokumentaci. Velmi často je místo toho zaměstnancům, kteří musí převzít práci ostatních, přidělen úkol “detektiva”, který vyžaduje, aby pečlivě rozpletli časovou osu, která vedla k opuštěné práci, kterou jim nyní přidělili.
Samozřejmě by dokonalá dokumentace ušetřila dny, týdny nebo dokonce měsíce práce – kdyby to bylo finančně racionální.
Nicméně, kde jsou AI agenti těmi, kdo provádějí úkoly, může existovat větší prostor pro potenciální řešení problému.
Převzetí úkolu
Tento problém “nedokumentace” je kvantifikován v nové výzkumné práci z USA, která nazývá problém dluh převzetí.
Pokud technický dluh je syndrom, ve kterém rychlá a levná řešení dnes vedou k křehkým nebo obtížně udržovatelným řešením v budoucnu, pak dluh převzetí definuje náklady na znovuvyšetřování – forenzní rekonstrukci kroků pracovníka nebo entity, která není k dispozici pro poradenství (nepřátelské propuštění, příliš zaneprázdněná, mrtvá atd.) nebo jinak není schopná poradit (například LLM, která již dlouho odstranila kontext, který vedl k aktuálnímu stavu práce).
Nová práce† – spolupráce mezi nezávislými a výzkumníky z Georgia State University – se zabývá dluhem převzetí v souvislosti s kódovacími agenty, kteří jsou pověřeni převzetím práce, kde ji jiný agent nebo entita ukončila v kódu.
Jedním z cílů této práce je stanovit, kolik dokumentace je nezbytné pro snížení dluhu převzetí, a které postupy a protokoly by mohly být doporučeny jako standardní praxe v budoucnu, aby se minimalizoval tento problém.
Rozpočtové obavy
V ideálním světě by bylo možné nastavit protokolování na verbose a jednoduše poskytnout novému agentovi (tomu, který přebírá úkol) protokoly související s neúplným úkolem.
Však analýza takovéhoto objemu dat by byla časově náročná a také by spotřebovávala tokenový rozpočet – a také by přinesla omezení úložného prostoru.
Toto je rozpočtový problém, protože použití surových dumpů je vyčerpávající, zatímco použití kurátorovaných protokolů je méně matoucí, ale vyžaduje předchozí závazek zdrojů.
Řádné, věnované poznámky by byly velmi účinné při zavedení “přebírajícího umělce” do provozu, ale za cenu ještě většího závazku úsilí – úsilí, které nemusí být nikdy potřeba, pokud logika práce nakonec prokáže, že je sama o sobě zřejmá, nebo pokud práce je opuštěna, nebo nikdy revidována.
Autorům nové práce, nazvané Dluh převzetí: Náklady na znovuvyšetřování, když kódovací agenti přebírají přerušené úkoly, byly všechny tyto scénáře brány v úvahu, a autoři adaptovali stávající úkoly na nové způsoby kvantifikace a řešení dluhu převzetí. Přestože se tato práce zabývá specificky kódovacími agenty, může naznačit užitečné směry vpřed v širších kontextech AI a v logistice dokumentačních politik.
Autoři uvádějí:
‘Dluh převzetí vzniká, když agent dosáhne viditelného pokroku, ale zanechá stav, který nástupce nemůže snadno pokračovat, jako jsou nevyjasněné úpravy, poznámky, skryté předpoklady nebo chybějící validační důkazy.
‘Metrika založená pouze na konečném řešení nemůže rozlišit mezi nákladným znovuvyšetřením a efektivním pokračováním.
‘Dva předcházející agenti mohou zanechat stejnou kontrolní bodovou repozitář, ale jejich nástupci mohou čelit velmi rozdílným nákladům na pokračování: jeden může pokračovat okamžitě, zatímco druhý musí strávit mnoho interakcí s nástroji znovuvyšetřováním záměru z poznámek a neúplné historie příkazů.’
Metoda
Autoři definují předcházející jako předchozí agent (ten, který původně nebo naposledy provedl práci) a nástupce jako současný agent (ten, který má za úkol převzít práci),
Na podporu benchmarku navrženého pro měření nákladů na převzetí nedokončených softwarových inženýrských úkolů mezi agenty byly 75 úkolů ze SWE-bench Verified převedeny do 181 převzetí scénářů, každý reprezentující bod, ve kterém byla práce přerušena a předána nástupci. Tři různé nástupnické modely byly poté testovány napříč 2 172 převzetími.
Modelové rodiny použité a různě smíchané v těchto testech převzetí byly Qwen, Gemma a Devstral.
Experimenty zkoumaly čtyři úrovně zděděných informací: v nejvíce restriktivním nastavení obdržel nástupce pouze stav repozitáře (efektivně vstupující do nedokumentované “katastrofické zóny”). Jiná nastavení poskytla postupně podrobnější kontext, od stop aktivit a historie příkazů až po kompaktní souhrny popisující, co již bylo pokusu a naučeno:
| Repozitář pouze
Nástupce obdrží pouze repozitář a popis úkolu, bez záznamu předchozích akcí, rozhodnutí nebo neúspěšných pokusů. |
Surový záznam
Nástupce obdrží kompletní historii předcházejícího agenta, odhalující každý příkaz, pozorování, úpravu, úspěch a neúspěch. |
| Souhrnné poznámky
Nástupce obdrží souhrn vygenerovaný z historie aktivit předcházejícího agenta, kondenzující klíčové informace do prózy. |
Strukturované poznámky
Nástupce obdrží kompaktní dokument převzetí obsahující standardizovaná pole popisující stav úkolu, změny provedené a validační výsledky. |
Rather než se zaměřit pouze na to, zda úkol byl nakonec vyřešen, studie byla navržena tak, aby měřila náklad na pokračování, s pozorností věnovanou použití nástrojů, spotřebě tokenů a množství úsilí vyžadovaného pro rekonstrukci důvodů předchozí práce.
Tři definice bodu převzetí a tři stavy převzetí byly definovány pro experimenty:
| Definice bodu převzetí | Stavy převzetí |
|---|---|
| Po první úpravě zdroje. Po první úpravě kódu. Předcházející agent již začal pracovat, ale尚 nezkontroloval, zda úprava skutečně funguje. | Potřebuje dokončení. Úkol je nedokončený a nástupce musí pokračovat v práci, aby dosáhl správného řešení. |
| Po první validační výsledku. Předcházející agent již spustil test nebo validační krok, poskytující некоторé důkazy o pokroku. | Už vyřešeno a zachováno. Úkol byl efektivně dokončen a úkolem nástupce je zabránit jeho porušení. |
| Po první úpravě po selhání. Test selhal a předchozí agent již pokusil reagovat provedením další úpravy. | Existující chování porušeno. Něco, co fungovalo dříve, je nyní porušeno. |
Data a testy
Pro vytvoření realistických scénářů převzetí byl benchmark autorů postaven z 75 softwarových inženýrských úkolů ze SWE-Bench Verified, s důrazem na problémy, které obvykle trvají mezi 15 minutami a 4 hodinami na vyřešení.
Rather než vyhodnocovat pouze dokončené úkoly, výzkumníci zachytili multiple intermediate kontrolní body během práce, vytvářející situace, ve kterých jeden AI agent musel převzít od jiného:

Konstrukce benchmarku převzetí. Sedmdesát pět úkolů ze SWE-bench Verified bylo rozšířeno do 181 bodů převzetí pokrývajících tři fáze práce, označených podle stavu repozitáře v době převzetí, a vyhodnocených pod čtyřmi podmínkami sdílení informací, produkujících 2 172 běhů nástupnických agentů. Zdroj
Protože každý úkol mohl generovat několik bodů převzetí a každý bod převzetí byl testován pomocí čtyř různých forem přenesených informací, benchmark se rychle rozšiřoval, s konečným datasetem složeným z 181 různých bodů převzetí a 724 vyhodnocení nástupnických agentů pro každý nástupnický model, produkujících 2 172 běhů nástupnických agentů napříč třemi testovanými AI systémy.
Pro testy byl použit prostředí kódovacího agenta stylu OpenHands, s terminálovými akcemi, zmrazením repozitáře v bodech převzetí, editací souborů a oficiální validací ze SWE-Bench benchmarku.
V primární studii pocházely všechny body převzetí z běhů založených na Qwen, aby se poskytl pevný výchozí bod pro vyhodnocení rozdílu mezi různými agenty a scénáři.
Testované páry převzetí byly Qwen-Qwen; Qwen-Gemma; a Qwen-Devstral.
Surový záznam produkoval největší snížení nástupnického úsilí, snižující události agentů o 57-59%, zatímco Souhrnné poznámky a Strukturované poznámky snížily události o 20-46%. Spotřeba tokenů promptů se také snížila napříč všemi třemi přístupy, se snížením v rozmezí 42-63%:
| View | Runs | Solved rate (Δ pp) | Agent events (Δ%) | Prompt tokens (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Repozitář pouze | 181 | 46.4% | 99 | 1.63M |
| Surový záznam | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| Souhrnné poznámky | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| Strukturované poznámky | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| Repozitář pouze | 181 | 42.5% | 49 | 738k |
| Surový záznam | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| Souhrnné poznámky | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| Strukturované poznámky | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| Repozitář pouze | 181 | 34.3% | 175 | 3.94M |
| Surový záznam | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| Souhrnné poznámky | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| Strukturované poznámky | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
Při převzetích Repozitář pouze museli nástupnický agenti strávit další interakce rekonstruováním záměru předcházejícího agenta, předchozích důkazů a neúspěšných pokusů. Surový záznam, Souhrnné poznámky a Strukturované poznámky přenesly část této informace přímo, snižují množství znovuvyšetřování, i když za cenu delších počátečních promptů.
Pro ověření, zda zisky byly skutečné, každá kontextově bohatá převzetí byla porovnána s ekvivalentním repozitářem pouze převzetím, začínajícím ze stejného bodu. Napříč všemi modelovými páry se snížení udržovala konzistentně, ukazující, že přínosy odrážejí smysluplný vzorec, spíše než několik výjimečných případů.
Vezměte si to…
Stručně řečeno†, autoři zjistili, že když jeden AI předá úkol druhému, i jednoduché poznámky pomáhají druhému AI pokračovat efektivněji.
Úplné záznamy fungují nejlépe, ale jakékoli informace o převzetí jsou lepší než nechat nástupce rekonstruovat vše z kódu samotného; a výsledky výše ilustrují, že “plný” přístup surového logu nakonec má vyšší tokenový náklad.
Závěr
Přestože se tato práce zaměřuje striktně na peer výzkumníky, s omezeným apelem pro běžného čtenáře, nová práce se zabývá jedním z nejzajímavějších a nejnaléhavějších problémů týkajících se současného stavu umění v humánních>AI rozhraních a protokolech.
Jedním by bylo doufat, že paradigmy vyvinuté a poznatky získané v tomto typu průzkumu by mohly nakonec rozšířit kontext AI použití za hranice agentic kódování.
Jednou z dalších cest prozkoumání by mohlo být pro budoucí projekty zvážit způsoby, jak vyhodnotit, jaký minimální rozsah dokumentace by mohl být považován za dostatečný pro konkrétní projekt, na základě jeho charakteristik a použití. Nicméně, i tato funkcionalita, která by pomohla racionalizovat výdaje času a peněz, sama o sobě stojí čas a peníze; a tak rozpočtová dilema spojená s dokumentačními scénáři zůstává obtížně řešitelné.
* Osobně, pro relace ChatGPT, které jsou zatíženy latencí a nadměrným kontextem, jsem v poslední době začal exportovat (s určitými obtížemi) čistý PDF chatu a používat jej jako výchozí bod pro novou relaci, která se stává “část 2”.
† Bohužel, toto není nejvíce přístupná práce, kterou jsem letos četl, a z tohoto důvodu nemohu doporučit čtenáři původní práci, i když výsledky zůstávají zajímavé.
Poprvé zveřejněno ve středu, 3. června 2026












