Andersons Blickwinkel
Warum KI Schwierigkeiten hat, eine halb fertige Aufgabe zu übernehmen

Obwohl KI-Agenten komplexe Aufgaben lösen können, zeigt eine neue Studie, dass sie Schwierigkeiten haben, die Arbeit eines anderen fortzusetzen, was zu duplizierten Anstrengungen, langsamerem Fortschritt und höheren Kosten führt.
Eine der anstrengendsten, aber auch essentiellsten Aufgaben bei der Arbeit mit KI-Agenten und -Schnittstellen ist, dass die KI am Anfang eines Austauschs “auf den neuesten Stand gebracht” werden muss, in fast jedem Fall.
Während beliebte Sprachmodelle wie ChatGPT einige Zugriff auf “persistente” benutzerdefinierte Erinnerungen bieten, ist die Implementierung normalerweise ein Glücksspiel; am Ende ist es normalerweise sicherer, den Aufwand zu akzeptieren, den Auftrag für die KI zu kontextualisieren*, um zu verhindern, dass sie einen falschen Kontext aus ihrem trainierten latenten Raum “errät”.
Übernahme von realen Aufgaben
Die Herausforderung existiert bereits seit längerem, natürlich; viele Unternehmen verlangen von ihren Mitarbeitern, dass sie Dokumentationen über Prozesse erstellen und aktualisieren, die sie entwickeln oder verfeinern (teilweise für eine reibungslosere Einstellung, aber auch, um zu verhindern, dass Mitarbeiter Vorteile erlangen).
In der Praxis sind es jedoch oft nur größere und besser finanzierte Organisationen, die sich zu der Erstellung, Aktualisierung und Aufrechterhaltung von Dokumentationen verpflichten. Oftmals erhalten Mitarbeiter, die die Arbeit anderer übernehmen müssen, eine “detektivähnliche” Aufgabe, bei der sie die Zeitachse sorgfältig aufarbeiten müssen, die zur abgebrochenen Arbeit geführt hat, die sie jetzt übernommen haben.
Es ist offensichtlich, dass makellose Dokumentation Tage, Wochen oder sogar Monate an Arbeit sparen würde – wenn es nur eine finanziell rationale Lösung wäre.
Jedoch gibt es, wo KI-Agenten die betreffenden Operativen sind, möglicherweise größere Chancen, das Problem zu lösen.
Übergabe
Diese Belastung durch “Nichtdokumentation” wird in einer neuen Forschungsarbeit aus den USA quantifiziert, die das Problem Übergabeschuld nennt.
Wenn technische Schulden das Syndrom sind, bei dem billige und schnelle technische Lösungen heute zu brüchigen oder schwer zu wartenden Lösungen in der Zukunft führen, dann definiert Übergabeschuld die Kosten der Wiederentdeckung – der forensischen Rückverfolgung der Schritte eines Arbeiters oder einer Entität, die nicht verfügbar ist, um zu beraten (feindliche Entlassung, zu beschäftigt, tot usw.) oder aus anderen Gründen nicht in der Lage ist, zu beraten (z. B. ein LLM, das den Kontext, der zur aktuellen Arbeitszustand geführt hat, längst abgelegt hat).
Die neue Arbeit† – eine Zusammenarbeit zwischen unabhängigen und an der Georgia State University angebundenen Forschern – beschäftigt sich mit Übergabeschulden im Zusammenhang mit Codieragenten, die damit beauftragt sind, dort weiterzumachen, wo eine andere Sitzung, Person oder Entität aufgehört hat, in einem Codebasis.
Eines der Ziele der Arbeit ist es, genau zu bestimmen, wie viel Dokumentation notwendig ist, um Übergabeschulden zu reduzieren, und welche Verfahren und Protokolle als Standardpraxis in Zukunft empfohlen werden sollten, um das Problem zu minimieren.
Budgetäre Bedenken
In einer idealen Welt könnte man die Protokollierung auf verbose setzen und dem neuen Agenten (dem, der die Aufgabe übernimmt) einfach die Protokolle im Zusammenhang mit der unvollständigen Aufgabe übergeben.
Das Parsen einer solchen Datenmenge in nützliche Daten wäre jedoch zeitaufwändig und würde auch die Token-Budgets beanspruchen sowie Speicherplatzbeschränkungen mit sich bringen.
Das ist ein budgetäres Problem, weil die Verwendung von Rohdaten aufwändig ist, während die Verwendung von kuratierten Protokollen weniger verwirrend ist, aber eine vorherige Verpflichtung von Ressourcen erfordert.
Eigene, dedizierte Notizen wären sehr effektiv, um einen “Übernehmer” auf den neuesten Stand zu bringen, aber auf Kosten eines noch größeren Engagements an Aufwand – Aufwand, der möglicherweise nie notwendig sein wird, wenn die Logik der Arbeit letztendlich selbstverständlich ist oder wenn die Arbeit aufgegeben oder nie wieder überarbeitet wird.
Die Autoren der neuen Arbeit, betitelt Übergabeschuld: Die Wiederentdeckungskosten, wenn Codieragenten unterbrochene Aufgaben übernehmen, haben all diese Szenarien berücksichtigt und bestehende Aufgabenmodelle an neue Wege zur Quantifizierung und Behandlung von Übergabeschulden angepasst. Obwohl die Arbeit sich speziell mit Codieragenten beschäftigt, kann sie möglicherweise auch nützliche Wege vorzeigen, um in einem breiteren Kontext von KI und Dokumentationspolitiken voranzukommen.
Die Autoren erklären:
‘Übergabeschuld entsteht, wenn ein Agent sichtbare Fortschritte macht, aber einen Zustand hinterlässt, den ein Nachfolger nicht leicht fortsetzen kann, wie z. B. unerklärte Änderungen, Scratch-Dateien, verborgene Annahmen oder fehlende Validierungsbeweise.
‘Eine Metrik, die ausschließlich auf die endgültige Lösung basiert, kann nicht zwischen teurer Wiederentdeckung und effizienter Fortsetzung unterscheiden.
‘Zwei Vorgängeragenten können den gleichen Checkpoint-Repository hinterlassen, aber ihre Nachfolger können sehr unterschiedliche Fortsetzungskosten haben: einer kann sofort fortfahren, während ein anderer viele Werkzeuginteraktionen aufwenden muss, um die Absicht aus Scratch-Dateien und unvollständiger Befehlsverlaufs wiederzuentdecken.’
Methode
Die Autoren definieren Vorgänger als den vorherigen Agenten (den, der die Arbeit ursprünglich durchgeführt oder zuletzt bearbeitet hat) und Nachfolger als den aktuellen Agenten (den, der die Arbeit übernimmt),
Um eine Benchmark zu erstellen, die den Aufwand der Übertragung unvollständiger Software-Engineering-Aufgaben zwischen Agenten misst, wurden 75 Aufgaben aus SWE-bench Verified in 181 Übergabeszenarien umgewandelt, von denen jedes einen Punkt darstellte, an dem die Arbeit unterbrochen und an einen Nachfolger-Agenten übergeben wurde. Drei verschiedene Nachfolger-Modelle wurden dann über 2.172 Übernahmeverfahren getestet.
Die verwendeten Modellfamilien, die in diesen Übergabetests auf verschiedene Weise kombiniert wurden, waren Qwen, Gemma und Devstral.
Die Experimente untersuchten vier Ebenen von übernommenen Informationen: in der einschränkendsten Einstellung erhielt der Nachfolger nur den Zustand des Repositorys (effektiv ein undokumentiertes “Katastrophengebiet”). Andere Einstellungen boten zunehmend detailliertere Kontexte, von Aktivitätsverläufen und Befehlsverläufen bis hin zu kompakten Zusammenfassungen, die beschrieben, was bereits versucht und gelernt worden war:
| Repository nur
Der Nachfolger erhält nur das Repository und die Aufgabenbeschreibung, ohne Aufzeichnungen über frühere Aktionen, Entscheidungen oder fehlgeschlagene Versuche. |
Rohverlauf
Der Nachfolger erhält den vollständigen Verlauf des Vorgängers, der jeden Befehl, jede Beobachtung, jede Bearbeitung, jeden Erfolg und jeden Misserfolg enthält. |
| Zusammenfassende Notizen
Der Nachfolger erhält eine natürlichsprachliche Zusammenfassung, die aus der Aktivitätsverlaufs des Vorgängers generiert wurde und wichtige Informationen in Prosa kondensiert. |
Strukturierte Notizen
Der Nachfolger erhält ein kompaktes Übergabedokument, das standardisierte Felder enthält, die den Aufgabenstatus, die vorgenommenen Änderungen und die Validierungsergebnisse beschreiben. |
Statt sich ausschließlich darauf zu konzentrieren, ob eine Aufgabe letztendlich gelöst wurde, wurde die Studie so konzipiert, dass sie den Aufwand der Fortsetzung selbst misst, wobei die Werkzeugnutzung, die Tokenverbrauch und der Aufwand, der erforderlich ist, um die Argumentation hinter früherer Arbeit zu rekonstruieren, berücksichtigt werden.
Drei Übergabepunkterkennung-Definitionen und drei Übergabezustände wurden für die Experimente definiert:
| Übergabepunkterkennung | Übergabezustände |
|---|---|
| Nach der ersten Quellbearbeitung. Nach der ersten Codeänderung. Der erste Agent hat bereits begonnen zu arbeiten, aber noch nicht überprüft, ob die Änderung tatsächlich funktioniert. | Vervollständigung erforderlich. Die Aufgabe ist unvollständig, und der Nachfolger muss weiterarbeiten, um eine korrekte Lösung zu erreichen. |
| Nach dem ersten Validierungsergebnis. Der erste Agent hat bereits einen Test oder eine Validierungsschritt durchgeführt, der einige Beweise über den Fortschritt liefert. | Bereits gelöst und erhalten. Die Aufgabe ist im Wesentlichen abgeschlossen, und die Aufgabe des Nachfolgers ist es, sie nicht zu zerstören. |
| Nach der ersten Nachbearbeitung nach einem Fehler. Ein Test ist fehlgeschlagen, und der erste Agent hat bereits versucht, durch eine weitere Änderung zu reagieren. | Bestehendes Verhalten gebrochen. Etwas, das zuvor funktioniert hat, ist jetzt gebrochen. |
Daten und Tests
Um realistische Übergabeszenarien zu erstellen, wurde die Benchmark der Autoren aus 75 Software-Engineering-Aufgaben aus SWE-Bench Verified aufgebaut, wobei der Schwerpunkt auf Problemen lag, die normalerweise zwischen 15 Minuten und 4 Stunden dauern, um sie zu lösen.
Statt nur abgeschlossene Aufgaben zu bewerten, haben die Forscher mehrere Zwischenpunkte während der Arbeit aufgezeichnet, wodurch Situationen entstanden, in denen ein KI-Agent die Arbeit eines anderen übernehmen musste:

Konstruktion der Übernahme-Benchmark. 75 SWE-bench-Verified-Aufgaben wurden in 181 Übergabepunkte erweitert, die drei Arbeitsphasen umspannten, die nach dem Repositoryzustand bei der Übernahmezeit benannt wurden und unter vier Informationsübertragungsbedingungen ausgewertet wurden, was insgesamt 2.172 Nachfolger-Agent-Übernahmelaufzeiten ergab. Quelle
Weil jede Aufgabe mehrere Übergabepunkte generieren konnte und jeder Übergabe unter vier verschiedenen Formen der übertragenen Informationen getestet wurde, erweiterte sich die Benchmark schnell, mit einer endgültigen Datenmenge von 181 unterschiedlichen Übergabepunkten und 724 Übernahmeevaluierungen für jedes Nachfolgermodell, was insgesamt 2.172 Übernahmelaufzeiten über die drei getesteten KI-Systeme ergab.
Ein OpenHands-ähnliches Codieragenten-Umfeld wurde für die Tests verwendet, mit Terminalaktionen, Repository-Einfrieren bei Übergabepunkten, Dateibearbeitung und offizieller Validierung aus der SWE-Bench-Benchmark.
In der primären Studie stammten alle Übergabepunkte von Qwen-basierten Vorgängerläufen, um einen festen Ausgangspunkt zu haben, um die Differenz zwischen verschiedenen Agentenkombinationen und den verschiedenen Szenarien zu bewerten.
Die getesteten Übernahmepaare waren Qwen-zu-Qwen; Qwen-zu-Gemma; und Qwen-zu-Devstral.
Rohverlauf ergab die größten Reduzierungen des Nachfolgeraufwands, indem er Agentenereignisse um 57-59% reduzierte, während Zusammenfassende Notizen und Strukturierte Notizen Ereignisse um 20-46% reduzierten. Prompt-Token-Nutzung sank ebenfalls über alle drei Ansätze, mit Reduzierungen im Bereich von 42-63%:
| Ansicht | Läufe | Gelöstes Verhältnis (Δ pp) | Agentenereignisse (Δ%) | Prompt-Token (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Repository nur | 181 | 46,4% | 99 | 1,63 Mio. |
| Rohverlauf | 181 | 52,5% (+6,1 pp) | 41 (-59%) | 811.000 (-50%) |
| Zusammenfassende Notizen | 181 | 51,4% (+5,0 pp) | 53 (-46%) | 602.000 (-63%) |
| Strukturierte Notizen | 181 | 50,8% (+4,4 pp) | 55 (-44%) | 660.000 (-60%) |
| Qwen → Gemma | ||||
| Repository nur | 181 | 42,5% | 49 | 738.000 |
| Rohverlauf | 181 | 49,2% (+6,6 pp) | 21 (-57%) | 300.000 (-59%) |
| Zusammenfassende Notizen | 181 | 44,2% (+1,7 pp) | 33 (-33%) | 319.000 (-57%) |
| Strukturierte Notizen | 181 | 43,6% (+1,1 pp) | 39 (-20%) | 317.000 (-57%) |
| Qwen → Devstral | ||||
| Repository nur | 181 | 34,3% | 175 | 3,94 Mio. |
| Rohverlauf | 181 | 49,2% (+14,9 pp) | 73 (-58%) | 1,66 Mio. (-58%) |
| Zusammenfassende Notizen | 181 | 43,6% (+9,4 pp) | 123 (-30%) | 2,30 Mio. (-42%) |
| Strukturierte Notizen | 181 | 44,8% (+10,5 pp) | 125 (-29%) | 2,30 Mio. (-42%) |
Unter Repository-nur-Übergaben mussten Nachfolgeragenten zusätzliche Interaktionen aufwenden, um die Absicht des Vorgängers, frühere Beweise und fehlgeschlagene Ansätze zu rekonstruieren. Rohverlauf, Zusammenfassende Notizen und Strukturierte Notizen übertrugen einen Teil dieser Informationen direkt, wodurch der Umfang der Wiederentdeckung reduziert wurde, allerdings auf Kosten von größeren anfänglichen Prompts:
Um zu testen, ob die Gewinne echt waren, wurde jeder kontextreiche Übergabe mit einem Repository-nur-Übergabe verglichen, der am gleichen Punkt startete. Über alle Modellkombinationen hinweg reduzierten reichere Übergaben konsistent den erforderlichen Aufwand von Nachfolgeragenten.
Vollständige Ereignisverläufe ergaben die größten Reduzierungen, während Zusammenfassungen und strukturierte Notizen ebenfalls erhebliche Einsparungen lieferten. Der Effekt trat über die Benchmark hinweg auf und wurde nicht von einer kleinen Anzahl von Ausreißern angetrieben:
| Ansicht | Abgestimmte Läufe | Repository-nur-Agentenereignisse | Agentenereignisse (Δ%) | 95% CI für Δ-Ereignisse | Prompt-Token (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Rohverlauf | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798.000 (-51%) |
| Zusammenfassende Notizen | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572.000 (-65%) |
| Strukturierte Notizen | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646.000 (-60%) |
| Qwen → Gemma | |||||
| Rohverlauf | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300.000 (-59%) |
| Zusammenfassende Notizen | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319.000 (-57%) |
| Strukturierte Notizen | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317.000 (-57%) |
| Qwen → Devstral | |||||
| Rohverlauf | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1,65 Mio. (-58%) |
| Zusammenfassende Notizen | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2,28 Mio. (-42%) |
| Strukturierte Notizen | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2,29 Mio. (-42%) |
Um zu bestätigen, dass der Effekt nicht durch eine Handvoll ungewöhnlicher Fälle angetrieben wurde, verglichen die Forscher jeden Übergabe mit einem Repository-nur-Übergabe, der am gleichen Punkt startete. Die Reduzierungen blieben über alle Modellkombinationen hinweg konsistent, was darauf hindeutet, dass die Vorteile ein sinnvolles Muster widerspiegeln und nicht durch einige Ausnahmefälle angetrieben werden.
Nimm es mit…
Kurz gesagt†, fanden die Autoren heraus, dass einfache Notizen dem zweiten KI-Agenten helfen, die Aufgabe effizienter fortzusetzen, wenn ein KI-Agent eine Aufgabe an einen anderen übergibt.
Vollständige Aufzeichnungen dessen, was passiert ist, funktionieren am besten, aber jede Art von Übergabinformation ist besser, als den Nachfolger dazu zu zwingen, alles aus dem Code allein zu rekonstruieren; und die oben genannten Ergebnisse zeigen, dass der “vollständige” Rohprotokollansatz unweigerlich höhere Tokenkosten hat.
Schlussfolgerung
Obwohl die Arbeit selbst streng an Peer-Forscher gerichtet ist und für den durchschnittlichen Leser begrenzten Reiz hat, beschäftigt sich die neue Arbeit dennoch mit einem der interessantesten und dringendsten Probleme im Zusammenhang mit dem aktuellen Stand der Forschung in menschlicher>KI-Schnittstellen und -Protokollen.
Man könnte hoffen, dass die in dieser Art von Erkundung entwickelten Paradigmen und gewonnenen Erkenntnisse sich letztendlich auf einen breiteren Kontext von KI-Nutzung als nur agierende Codierung erstrecken könnten.
Ein weiterer Forschungsweg könnte darin bestehen, zukünftige Projekte zu untersuchen, um zu bewerten, welches Dokumentationsniveau für ein bestimmtes Projekt aufgrund seiner Merkmale und seines Anwendungsfalls als Minimum angesehen werden könnte. Allerdings kostet auch diese Funktionalität, die dazu beitragen würde, den Aufwand an Zeit und Geld zu rationalisieren, selbst Zeit und Geld; und so bleibt das budgetäre Dilemma, das mit Dokumentationsszenarien verbunden ist, schwer zu überwinden.
* Ich habe persönlich für ChatGPT-Sitzungen, die von Verzögerungen und übermäßigem Kontext belastet sind, kürzlich damit begonnen, mit einiger Mühe ein sauberes PDF der Konversation zu exportieren und es als Ausgangspunkt für eine neue Sitzung zu verwenden, die zu “Teil 2” wird.
† Leider ist dies nicht die zugänglichste Arbeit, die ich in diesem Jahr gelesen habe, und aus diesem Grund kann ich den Leser nicht zum Quellenwerk empfehlen, obwohl die verdauten Ergebnisse dennoch von Interesse bleiben.
Erstveröffentlichung am Mittwoch, den 3. Juni 2026












