Kąt Andersona
Dlaczego AI ma trudności z podjęciem niedokończonego zadania

Chociaż agenci AI mogą rozwiązywać złożone zadania, nowe badanie wskazuje, że mają trudności z kontynuowaniem pracy rozpoczętej przez innego, co prowadzi do powtarzalnych wysiłków, wolniejszego postępu i wyższych kosztów.
Jednym z najbardziej wyczerpujących, a jednocześnie niezbędnych zadań w pracy z agentami AI i interfejsami jest to, że AI wymaga “wprowadzenia w stan gotowości” na początku wymiany, w prawie każdym przypadku.
Podczas gdy popularne modele językowe, takie jak ChatGPT, oferują pewien dostęp do “trwałych” niestandardowych wspomnień, implementacja jest zwykle sprawą losową; ostatecznie jest bezpieczniej zaakceptować wysiłek kontekstualizacji zadania dla AI – przynajmniej, aby powstrzymać ją od “przewidywania” błędnego kontekstu z jej przeszkolonej latentnej przestrzeni.
Podejmowanie rzeczywistych zadań
Wyzwanie poprzedza AI, oczywiście; wiele firm już wymaga od pracowników prowadzenia dokumentacji dotyczącej procesów, które rozwijają lub udoskonalają (częściowo w celu ułatwienia wdrożenia, ale również, aby uniknąć uzyskania przez pracowników przewagi).
W praktyce jednak tylko większe i lepiej finansowane organizacje honorują zobowiązanie do tworzenia, aktualizowania i utrzymywania dokumentacji. Zwykle pracownicy, którzy muszą podjąć pracę innych, otrzymują zadanie “detektywistyczne”, które wymaga od nich starannego rozplątywania chronologii prowadzącej do porzuconej pracy, którą teraz otrzymali.
Niewątpliwie, idealna dokumentacja zaoszczędziłaby dni, tygodnie lub nawet miesiące pracy – gdyby tylko była to finansowo racjonalna propozycja.
Jednak tam, gdzie agenci AI są wykonawcami, może być większa możliwość potencjalnego rozwiązania problemu.
Przekazanie
Ten ciężar “niedokumentacji” jest ilościowo określony w nowym badaniu naukowym z USA, które nazywa ten problem długiem przekazania.
Jeśli dług techniczny jest zespołem, w którym szybkie i tanie rozwiązania techniczne dzisiaj prowadzą do kruchych lub trudnych do utrzymania rozwiązań w przyszłości, to dług przekazania definiuje koszt ponownego odkrycia – kryminalistycznego odtworzenia kroków pracownika lub podmiotu, który nie jest dostępny do doradztwa (wrogie zwolnienie, zbyt zajęty, zmarły itp.) lub inaczej niezdolny do doradztwa (na przykład LLM, który dawno temu porzucił kontekst, który doprowadził do bieżącego stanu pracy).
Nowy artykuł† – współpraca między niezależnymi i związanymi z Uniwersytetem Stanu Georgia badaczami – zajmuje się długiem przekazania w odniesieniu do agentów kodowania, którym powierzono podjęcie pracy tam, gdzie poprzednia sesja, osoba lub podmiot ją pozostawił w kodzie.
Jednym z celów pracy jest ustalenie, jaka ilość dokumentacji jest niezbędna do zmniejszenia długu przekazania, oraz jakie procedury i protokoły mogą być zalecane do przyjęcia jako standardowa praktyka w przyszłości, aby zminimalizować problem.
Założenia budżetowe
W idealnym świecie można by ustawić rejestrowanie na verbose i po prostu przekazać nowemu agentowi (który podejmuje zadanie) rejestry związane z niedokończonym zadaniem.
Analiza takiej ilości danych w celu uzyskania przydatnych danych byłaby jednak czasochłonna i również wprowadzałaby ograniczenia dotyczące miejsca na dysku – a także byłaby problemem budżetowym, ponieważ używanie surowych zrzutów jest wyczerpujące, a używanie opracowanych rejestrowanych jest mniej mylące, ale wymaga wcześniejszego zaangażowania zasobów.
Prawidłowe, dedykowane notatki byłyby bardzo skuteczne w przygotowaniu “artysty podejmującego” do pracy, ale za cenę jeszcze większego zaangażowania wysiłku – wysiłku, który może nigdy nie być potrzebny, jeśli logika pracy okaże się ostatecznie oczywista, lub jeśli praca zostanie porzucona lub nigdy nie zostanie ponownie przeglądana.
Autorzy nowej pracy, zatytułowanej Dług przekazania: Koszt ponownego odkrycia, gdy agenci kodowania przejmują przerwane zadania, rozważyli wszystkie te scenariusze i dostosowali istniejące modele zadań do nowych sposobów ilościowego określania i rozwiązywania długu przekazania. Chociaż praca dotyczy specjalnie agentów kodowania, może jednak wskazać przydatne drogi do przodu w szerszych kontekstach AI i polityk dokumentacji.
Autorzy stwierdzają:
‘Dług przekazania powstaje, gdy agent dokonuje widocznego postępu, ale pozostawia stan, z którego następca nie może łatwo kontynuować, takiego jak nieujawnione edycje, pliki robocze, ukryte założenia lub brakujące dowody walidacji.
‘Miara oparta wyłącznie na ostatecznym rozwiązaniu nie może odróżnić kosztownego ponownego odkrycia i wydajnego kontynuowania.
‘Dwa poprzednie agenci mogą pozostawić ten sam punkt kontrolny, ale ich następcy mogą napotkać bardzo różne koszty kontynuowania: jeden może kontynuować natychmiast, podczas gdy inny musi poświęcić wiele interakcji z narzędziami na ponowne odkrycie intencji z plików roboczych i niepełnej historii poleceń.’
Metoda
Autorzy definiują poprzednika jako poprzedniego agenta (który zainicjował lub ostatnio wykonywał pracę) i następcę jako bieżącego agenta (który jest odpowiedzialny za podjęcie pracy),
W ramach wsparcia dla benchmarku zaprojektowanego w celu pomiaru kosztu przenoszenia niedokończonych zadań inżynierii oprogramowania między agentami, 75 zadań z SWE-bench Verified zostało przekształconych w 181 scenariusze przekazania, z których każdy reprezentował punkt, w którym praca została przerwana i przekazana następcy. Trzy różne modele następców zostały następnie przetestowane w 2,172 próbach przejęcia.
Rodziny modeli użytych w tych testach przekazania, a także różnorodnie mieszane, to Qwen, Gemma i Devstral.
Eksperymenty badają cztery poziomy dziedziczonej informacji: w najbardziej restrykcyjnym ustawieniu następca otrzymuje tylko stan repozytorium (skutecznie, wchodząc w nieudokumentowaną “strefę klęski”). Inne ustawienia zapewniają coraz bardziej szczegółowy kontekst, od śladów aktywności i historii poleceń do kompaktowych podsumowań opisujących, co już zostało podjęte i nauczone:
| Tylko repozytorium
Następca otrzymuje tylko repozytorium i opis zadania, bez rekordu wcześniejszych działań, decyzji lub nieudanych prób. |
Ślad surowy
Następca otrzymuje pełną historię poprzednika, ujawniającą każde polecenie, obserwację, edycję, sukces i porażkę. |
| Notatki podsumowujące
Następca otrzymuje podsumowanie w języku naturalnym wygenerowane z historii aktywności poprzednika, kondensując kluczowe informacje w prozie. |
Notatki ustrukturyzowane
Następca otrzymuje kompaktowy dokument przekazania zawierający ustandaryzowane pola opisujące stan zadania, zmiany i wyniki walidacji. |
Zamiast koncentrować się wyłącznie na tym, czy zadanie zostało ostatecznie rozwiązane, badanie zostało zaprojektowane w celu pomiaru kosztu kontynuowania samego, z uwzględnieniem użycia narzędzi, zużycia tokenów i ilości wysiłku wymaganego do odtworzenia rozumowania za wcześniejszą pracą.
Zdefiniowano trzy definicje wykrywania punktu przekazania i trzy stany przekazania dla eksperymentów:
| Wykrywanie punktu przekazania | Stany przekazania |
|---|---|
| Po pierwszej edycji źródła. Po pierwszej zmianie kodu. Pierwszy agent rozpoczął pracę, ale jeszcze nie sprawdził, czy zmiana faktycznie działa. | Wymaga ukończenia. Zadanie jest niedokończone, a następca musi kontynuować pracę, aby osiągnąć poprawne rozwiązanie. |
| Po pierwszym wyniku walidacji. Pierwszy agent już uruchomił test lub krok walidacji, dostarczając pewne dowody postępu. | Już rozwiązane i zachowane. Zadanie zostało skutecznie rozwiązane, a zadaniem następcy jest uniknięcie jego złamania. |
| Po pierwszej edycji po niepowodzeniu. Test nie powiódł się, a pierwszy agent już próbował zareagować, wprowadzając kolejną zmianę. | Istniejące zachowanie złamane. Coś, co działało wcześniej, teraz jest złamane. |
Dane i testy
Aby utworzyć realistyczne scenariusze przekazania, benchmark autorów został zbudowany z 75 zadań inżynierii oprogramowania pobranych z SWE-Bench Verified, z naciskiem na problemy, które zwykle zajmują od 15 minut do 4 godzin, aby je rozwiązać.
Zamiast oceniania tylko ukończonych zadań, badacze przechwycili wiele pośrednich punktów kontrolnych podczas pracy, tworząc sytuacje, w których jeden agent AI musiał przejąć pracę od innego:

Konstrukcja benchmarku przejęcia. 75 zadań SWE-bench Verified zostało rozwiniętych w 181 punkty przekazania, obejmujących trzy etapy pracy, oznaczone według stanu repozytorium w czasie przejęcia, i ocenione pod kątem czterech warunków udostępniania informacji, wytwarzając 2,172 łączne przejęcia agentów następców. Źródło
Ponieważ każde zadanie mogło wygenerować kilka punktów przekazania, a każde przejęcie było testowane przy użyciu czterech różnych form przekazywanych informacji, benchmark rozwinął się szybko, a ostateczny zestaw danych składał się z 181 odrębnych zadań przekazania i 724 ocen przejęcia dla każdego modelu następcy, wytwarzając 2,172 przejęcia w trzech testowanych systemach AI.
Środowisko agenta kodowania OpenHands zostało użyte do testów, z terminalowymi działaniami, zamrożeniem repozytorium w punktach przekazania, edycją plików i oficjalną walidacją z benchmarku SWE-Bench.
W podstawowym badaniu wszystkie punkty przekazania pochodziły z przejęć opartych na Qwen, aby zapewnić stały punkt startowy do oceny różnicy między różnymi kombinacjami agentów i różnymi scenariuszami.
Przetestowano pary przejęć Qwen-Qwen; Qwen-Gemma; i Qwen-Devstral.
Ślad surowy spowodował największe zmniejszenie wysiłku następcy, zmniejszając zdarzenia agenta o 57-59%, podczas gdy notatki podsumowujące i notatki ustrukturyzowane zmniejszyły zdarzenia o 20-46%. Użycie tokenów również zmniejszyło się we wszystkich trzech podejściach, z redukcjami w zakresie od 42-63%:
| Widok | Przejęcia | Wskaźnik rozwiązania (Δ pp) | Zdarzenia agenta (Δ%) | Tokeny wezwania (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Repozytorium tylko | 181 | 46.4% | 99 | 1.63M |
| Ślad surowy | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| Notatki podsumowujące | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| Notatki ustrukturyzowane | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| Repozytorium tylko | 181 | 42.5% | 49 | 738k |
| Ślad surowy | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| Notatki podsumowujące | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| Notatki ustrukturyzowane | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| Repozytorium tylko | 181 | 34.3% | 175 | 3.94M |
| Ślad surowy | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| Notatki podsumowujące | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| Notatki ustrukturyzowane | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
Przy przekazaniach tylko repozytorium agenci następcy musieli poświęcić dodatkowe interakcje na odtworzenie intencji poprzednika, wcześniejszych dowodów i nieudanych prób. Ślad surowy, notatki podsumowujące i notatki ustrukturyzowane przekazały część tej informacji bezpośrednio, zmniejszając ilość wymaganego ponownego odkrycia, choć za cenę większych początkowych wezwań.
Aby przetestować, czy zyski były prawdziwe, każde bogatsze przekazanie zostało dopasowane do przekazania tylko repozytorium, zaczynającego się z tego samego punktu. We wszystkich parach modeli bogatsze przekazania konsekwentnie zmniejszały pracę wymaganą od agentów następców.
Pełne ślady wygenerowały największe zmniejszenia, podczas gdy notatki podsumowujące i ustrukturyzowane również dostarczyły znaczne oszczędności. Efekt pojawił się w całym benchmarku, a nie był napędzany przez niewielką liczbę odstających przypadków:
| Widok | Przejęcia dopasowane | Zdarzenia agenta repozytorium | Zdarzenia agenta (Δ%) | 95% CI dla Δ zdarzeń | Tokeny wezwania (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Ślad surowy | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| Notatki podsumowujące | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| Notatki ustrukturyzowane | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| Ślad surowy | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| Notatki podsumowujące | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| Notatki ustrukturyzowane | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| Ślad surowy | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| Notatki podsumowujące | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| Notatki ustrukturyzowane | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
Aby potwierdzić, że efekt nie był napędzany przez niewielką liczbę nietypowych przypadków, badacze porównali każde przekazanie z odpowiednim przekazaniem tylko repozytorium, zaczynającym się z tego samego punktu. Zmniejszenia pozostały spójne we wszystkich parach modeli, wskazując, że korzyści odzwierciedlają znaczący wzorzec, a nie tylko kilka wyjątkowych przykładów.
Weź to…
Krótko mówiąc†, autorzy odkryli, że gdy jeden AI przekazuje zadanie innemu, nawet proste notatki pomagają drugiemu AI kontynuować bardziej wydajnie.
Pełne rekordy tego, co się wydarzyło, działają najlepiej, ale jakakolwiek informacja o przekazaniu jest lepsza niż pozostawienie następcy do odtworzenia wszystkiego samodzielnie z samego kodu; a powyższe wyniki ilustrują, że podejście “pełnego śladu” nieuchronnie ma wyższy koszt tokenów.
Podsumowanie
Chociaż sam artykuł jest skierowany ściśle do badaczy, z ograniczonym zainteresowaniem dla czytelnika, nowa praca nadal dotyka jednego z najbardziej interesujących i pilnych problemów dotyczących bieżącego stanu sztuki w interfejsach i protokołach człowiek-AI.
Można by się spodziewać, że paradygmaty opracowane i spostrzeżenia uzyskane w tym rodzaju eksploracji mogą ostatecznie rozciągać się na szerszy kontekst użycia AI niż tylko agenci kodowania.
Jedną dodatkową drogą eksploracji mogłoby być rozważenie sposobów oceny, jaki poziom dokumentacji można uznać za minimalny dla określonego projektu, na podstawie jego cech i przypadku użycia. Jednak nawet ta funkcjonalność, która pomoże w racjonalizacji wydatków czasu i pieniędzy, sama w sobie kosztuje czas i pieniądze; a więc budżetowy dylemat związany z scenariuszami dokumentacji pozostaje trudny do uniknięcia.
* Osobiście, dla sesji ChatGPT, które są obciążone opóźnieniami i nadmiernym kontekstem, ostatnio zacząłem wywozić (z pewnymi trudnościami) czysty plik PDF rozmowy i używać go jako punktu startowego dla nowej sesji, która staje się ‘częścią 2’.
† Niestety, to nie jest najbardziej przystępny artykuł, jaki przeczytałem w tym roku, i z tego powodu nie mogę polecić czytelnikowi źródłowej pracy, chociaż skondensowane wyniki pozostają interesujące.
Publikacja po raz pierwszy w środę, 3 czerwca 2026












