Andersons Blickwinkel

Warum KI Schwierigkeiten hat, eine halb fertige Aufgabe zu übernehmen

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

Obwohl KI-Agenten komplexe Aufgaben lösen können, zeigt eine neue Studie, dass sie Schwierigkeiten haben, die Arbeit eines anderen fortzusetzen, was zu duplizierten Anstrengungen, langsamerem Fortschritt und höheren Kosten führt.

 

Eine der anstrengendsten, aber auch essentiellsten Aufgaben bei der Arbeit mit KI-Agenten und -Schnittstellen ist, dass die KI am Anfang eines Austauschs “auf den neuesten Stand gebracht” werden muss, in fast jedem Fall.

Während beliebte Sprachmodelle wie ChatGPT einige Zugriff auf “persistente” benutzerdefinierte Erinnerungen bieten, ist die Implementierung normalerweise ein Glücksspiel; am Ende ist es normalerweise sicherer, den Aufwand zu akzeptieren, den Auftrag für die KI zu kontextualisieren*, um zu verhindern, dass sie einen falschen Kontext aus ihrem trainierten latenten Raum “errät”.

Übernahme von realen Aufgaben

Die Herausforderung existiert bereits seit längerem, natürlich; viele Unternehmen verlangen von ihren Mitarbeitern, dass sie Dokumentationen über Prozesse erstellen und aktualisieren, die sie entwickeln oder verfeinern (teilweise für eine reibungslosere Einstellung, aber auch, um zu verhindern, dass Mitarbeiter Vorteile erlangen).

In der Praxis sind es jedoch oft nur größere und besser finanzierte Organisationen, die sich zu der Erstellung, Aktualisierung und Aufrechterhaltung von Dokumentationen verpflichten. Oftmals erhalten Mitarbeiter, die die Arbeit anderer übernehmen müssen, eine “detektivähnliche” Aufgabe, bei der sie die Zeitachse sorgfältig aufarbeiten müssen, die zur abgebrochenen Arbeit geführt hat, die sie jetzt übernommen haben.

Es ist offensichtlich, dass makellose Dokumentation Tage, Wochen oder sogar Monate an Arbeit sparen würde – wenn es nur eine finanziell rationale Lösung wäre.

Jedoch gibt es, wo KI-Agenten die betreffenden Operativen sind, möglicherweise größere Chancen, das Problem zu lösen.

Übergabe

Diese Belastung durch “Nichtdokumentation” wird in einer neuen Forschungsarbeit aus den USA quantifiziert, die das Problem Übergabeschuld nennt.

Wenn technische Schulden das Syndrom sind, bei dem billige und schnelle technische Lösungen heute zu brüchigen oder schwer zu wartenden Lösungen in der Zukunft führen, dann definiert Übergabeschuld die Kosten der Wiederentdeckung – der forensischen Rückverfolgung der Schritte eines Arbeiters oder einer Entität, die nicht verfügbar ist, um zu beraten (feindliche Entlassung, zu beschäftigt, tot usw.) oder aus anderen Gründen nicht in der Lage ist, zu beraten (z. B. ein LLM, das den Kontext, der zur aktuellen Arbeitszustand geführt hat, längst abgelegt hat).

Die neue Arbeit – eine Zusammenarbeit zwischen unabhängigen und an der Georgia State University angebundenen Forschern – beschäftigt sich mit Übergabeschulden im Zusammenhang mit Codieragenten, die damit beauftragt sind, dort weiterzumachen, wo eine andere Sitzung, Person oder Entität aufgehört hat, in einem Codebasis.

Eines der Ziele der Arbeit ist es, genau zu bestimmen, wie viel Dokumentation notwendig ist, um Übergabeschulden zu reduzieren, und welche Verfahren und Protokolle als Standardpraxis in Zukunft empfohlen werden sollten, um das Problem zu minimieren.

Budgetäre Bedenken

In einer idealen Welt könnte man die Protokollierung auf verbose setzen und dem neuen Agenten (dem, der die Aufgabe übernimmt) einfach die Protokolle im Zusammenhang mit der unvollständigen Aufgabe übergeben.

Das Parsen einer solchen Datenmenge in nützliche Daten wäre jedoch zeitaufwändig und würde auch die Token-Budgets beanspruchen sowie Speicherplatzbeschränkungen mit sich bringen.

Das ist ein budgetäres Problem, weil die Verwendung von Rohdaten aufwändig ist, während die Verwendung von kuratierten Protokollen weniger verwirrend ist, aber eine vorherige Verpflichtung von Ressourcen erfordert.

Eigene, dedizierte Notizen wären sehr effektiv, um einen “Übernehmer” auf den neuesten Stand zu bringen, aber auf Kosten eines noch größeren Engagements an Aufwand – Aufwand, der möglicherweise nie notwendig sein wird, wenn die Logik der Arbeit letztendlich selbstverständlich ist oder wenn die Arbeit aufgegeben oder nie wieder überarbeitet wird.

Die Autoren der neuen Arbeit, betitelt Übergabeschuld: Die Wiederentdeckungskosten, wenn Codieragenten unterbrochene Aufgaben übernehmen, haben all diese Szenarien berücksichtigt und bestehende Aufgabenmodelle an neue Wege zur Quantifizierung und Behandlung von Übergabeschulden angepasst. Obwohl die Arbeit sich speziell mit Codieragenten beschäftigt, kann sie möglicherweise auch nützliche Wege vorzeigen, um in einem breiteren Kontext von KI und Dokumentationspolitiken voranzukommen.

Die Autoren erklären:

‘Übergabeschuld entsteht, wenn ein Agent sichtbare Fortschritte macht, aber einen Zustand hinterlässt, den ein Nachfolger nicht leicht fortsetzen kann, wie z. B. unerklärte Änderungen, Scratch-Dateien, verborgene Annahmen oder fehlende Validierungsbeweise.

‘Eine Metrik, die ausschließlich auf die endgültige Lösung basiert, kann nicht zwischen teurer Wiederentdeckung und effizienter Fortsetzung unterscheiden.

‘Zwei Vorgängeragenten können den gleichen Checkpoint-Repository hinterlassen, aber ihre Nachfolger können sehr unterschiedliche Fortsetzungskosten haben: einer kann sofort fortfahren, während ein anderer viele Werkzeuginteraktionen aufwenden muss, um die Absicht aus Scratch-Dateien und unvollständiger Befehlsverlaufs wiederzuentdecken.’

Methode

Die Autoren definieren Vorgänger als den vorherigen Agenten (den, der die Arbeit ursprünglich durchgeführt oder zuletzt bearbeitet hat) und Nachfolger als den aktuellen Agenten (den, der die Arbeit übernimmt),

Um eine Benchmark zu erstellen, die den Aufwand der Übertragung unvollständiger Software-Engineering-Aufgaben zwischen Agenten misst, wurden 75 Aufgaben aus SWE-bench Verified in 181 Übergabeszenarien umgewandelt, von denen jedes einen Punkt darstellte, an dem die Arbeit unterbrochen und an einen Nachfolger-Agenten übergeben wurde. Drei verschiedene Nachfolger-Modelle wurden dann über 2.172 Übernahmeverfahren getestet.

Die verwendeten Modellfamilien, die in diesen Übergabetests auf verschiedene Weise kombiniert wurden, waren Qwen, Gemma und Devstral.

Die Experimente untersuchten vier Ebenen von übernommenen Informationen: in der einschränkendsten Einstellung erhielt der Nachfolger nur den Zustand des Repositorys (effektiv ein undokumentiertes “Katastrophengebiet”). Andere Einstellungen boten zunehmend detailliertere Kontexte, von Aktivitätsverläufen und Befehlsverläufen bis hin zu kompakten Zusammenfassungen, die beschrieben, was bereits versucht und gelernt worden war:

Repository nur

Der Nachfolger erhält nur das Repository und die Aufgabenbeschreibung, ohne Aufzeichnungen über frühere Aktionen, Entscheidungen oder fehlgeschlagene Versuche.

Rohverlauf

Der Nachfolger erhält den vollständigen Verlauf des Vorgängers, der jeden Befehl, jede Beobachtung, jede Bearbeitung, jeden Erfolg und jeden Misserfolg enthält.

Zusammenfassende Notizen

Der Nachfolger erhält eine natürlichsprachliche Zusammenfassung, die aus der Aktivitätsverlaufs des Vorgängers generiert wurde und wichtige Informationen in Prosa kondensiert.

Strukturierte Notizen

Der Nachfolger erhält ein kompaktes Übergabedokument, das standardisierte Felder enthält, die den Aufgabenstatus, die vorgenommenen Änderungen und die Validierungsergebnisse beschreiben.

Statt sich ausschließlich darauf zu konzentrieren, ob eine Aufgabe letztendlich gelöst wurde, wurde die Studie so konzipiert, dass sie den Aufwand der Fortsetzung selbst misst, wobei die Werkzeugnutzung, die Tokenverbrauch und der Aufwand, der erforderlich ist, um die Argumentation hinter früherer Arbeit zu rekonstruieren, berücksichtigt werden.

Drei Übergabepunkterkennung-Definitionen und drei Übergabezustände wurden für die Experimente definiert:

Übergabepunkterkennung Übergabezustände
Nach der ersten Quellbearbeitung. Nach der ersten Codeänderung. Der erste Agent hat bereits begonnen zu arbeiten, aber noch nicht überprüft, ob die Änderung tatsächlich funktioniert. Vervollständigung erforderlich. Die Aufgabe ist unvollständig, und der Nachfolger muss weiterarbeiten, um eine korrekte Lösung zu erreichen.
Nach dem ersten Validierungsergebnis. Der erste Agent hat bereits einen Test oder eine Validierungsschritt durchgeführt, der einige Beweise über den Fortschritt liefert. Bereits gelöst und erhalten. Die Aufgabe ist im Wesentlichen abgeschlossen, und die Aufgabe des Nachfolgers ist es, sie nicht zu zerstören.
Nach der ersten Nachbearbeitung nach einem Fehler. Ein Test ist fehlgeschlagen, und der erste Agent hat bereits versucht, durch eine weitere Änderung zu reagieren. Bestehendes Verhalten gebrochen. Etwas, das zuvor funktioniert hat, ist jetzt gebrochen.

Daten und Tests

Um realistische Übergabeszenarien zu erstellen, wurde die Benchmark der Autoren aus 75 Software-Engineering-Aufgaben aus SWE-Bench Verified aufgebaut, wobei der Schwerpunkt auf Problemen lag, die normalerweise zwischen 15 Minuten und 4 Stunden dauern, um sie zu lösen.

Statt nur abgeschlossene Aufgaben zu bewerten, haben die Forscher mehrere Zwischenpunkte während der Arbeit aufgezeichnet, wodurch Situationen entstanden, in denen ein KI-Agent die Arbeit eines anderen übernehmen musste:

Konstruktion der Übernahme-Benchmark. 75 SWE-bench-Verified-Aufgaben wurden in 181 Übergabepunkte erweitert, die drei Arbeitsphasen umspannten, die nach dem Repositoryzustand bei der Übernahmezeit benannt wurden und unter vier Informationsübertragungsbedingungen ausgewertet wurden, was insgesamt 2.172 Nachfolger-Agent-Übernahmelaufzeiten ergab. Quelle - https://arxiv.org/pdf/2606.02875

Konstruktion der Übernahme-Benchmark. 75 SWE-bench-Verified-Aufgaben wurden in 181 Übergabepunkte erweitert, die drei Arbeitsphasen umspannten, die nach dem Repositoryzustand bei der Übernahmezeit benannt wurden und unter vier Informationsübertragungsbedingungen ausgewertet wurden, was insgesamt 2.172 Nachfolger-Agent-Übernahmelaufzeiten ergab. Quelle

Weil jede Aufgabe mehrere Übergabepunkte generieren konnte und jeder Übergabe unter vier verschiedenen Formen der übertragenen Informationen getestet wurde, erweiterte sich die Benchmark schnell, mit einer endgültigen Datenmenge von 181 unterschiedlichen Übergabepunkten und 724 Übernahmeevaluierungen für jedes Nachfolgermodell, was insgesamt 2.172 Übernahmelaufzeiten über die drei getesteten KI-Systeme ergab.

Ein OpenHands-ähnliches Codieragenten-Umfeld wurde für die Tests verwendet, mit Terminalaktionen, Repository-Einfrieren bei Übergabepunkten, Dateibearbeitung und offizieller Validierung aus der SWE-Bench-Benchmark.

In der primären Studie stammten alle Übergabepunkte von Qwen-basierten Vorgängerläufen, um einen festen Ausgangspunkt zu haben, um die Differenz zwischen verschiedenen Agentenkombinationen und den verschiedenen Szenarien zu bewerten.

Die getesteten Übernahmepaare waren Qwen-zu-Qwen; Qwen-zu-Gemma; und Qwen-zu-Devstral.

Rohverlauf ergab die größten Reduzierungen des Nachfolgeraufwands, indem er Agentenereignisse um 57-59% reduzierte, während Zusammenfassende Notizen und Strukturierte Notizen Ereignisse um 20-46% reduzierten. Prompt-Token-Nutzung sank ebenfalls über alle drei Ansätze, mit Reduzierungen im Bereich von 42-63%:

Ansicht Läufe Gelöstes Verhältnis (Δ pp) Agentenereignisse (Δ%) Prompt-Token (Δ%)
Qwen → Qwen
Repository nur 181 46,4% 99 1,63 Mio.
Rohverlauf 181 52,5% (+6,1 pp) 41 (-59%) 811.000 (-50%)
Zusammenfassende Notizen 181 51,4% (+5,0 pp) 53 (-46%) 602.000 (-63%)
Strukturierte Notizen 181 50,8% (+4,4 pp) 55 (-44%) 660.000 (-60%)
Qwen → Gemma
Repository nur 181 42,5% 49 738.000
Rohverlauf 181 49,2% (+6,6 pp) 21 (-57%) 300.000 (-59%)
Zusammenfassende Notizen 181 44,2% (+1,7 pp) 33 (-33%) 319.000 (-57%)
Strukturierte Notizen 181 43,6% (+1,1 pp) 39 (-20%) 317.000 (-57%)
Qwen → Devstral
Repository nur 181 34,3% 175 3,94 Mio.
Rohverlauf 181 49,2% (+14,9 pp) 73 (-58%) 1,66 Mio. (-58%)
Zusammenfassende Notizen 181 43,6% (+9,4 pp) 123 (-30%) 2,30 Mio. (-42%)
Strukturierte Notizen 181 44,8% (+10,5 pp) 125 (-29%) 2,30 Mio. (-42%)

Unter Repository-nur-Übergaben mussten Nachfolgeragenten zusätzliche Interaktionen aufwenden, um die Absicht des Vorgängers, frühere Beweise und fehlgeschlagene Ansätze zu rekonstruieren. Rohverlauf, Zusammenfassende Notizen und Strukturierte Notizen übertrugen einen Teil dieser Informationen direkt, wodurch der Umfang der Wiederentdeckung reduziert wurde, allerdings auf Kosten von größeren anfänglichen Prompts:

Um zu testen, ob die Gewinne echt waren, wurde jeder kontextreiche Übergabe mit einem Repository-nur-Übergabe verglichen, der am gleichen Punkt startete. Über alle Modellkombinationen hinweg reduzierten reichere Übergaben konsistent den erforderlichen Aufwand von Nachfolgeragenten.

Vollständige Ereignisverläufe ergaben die größten Reduzierungen, während Zusammenfassungen und strukturierte Notizen ebenfalls erhebliche Einsparungen lieferten. Der Effekt trat über die Benchmark hinweg auf und wurde nicht von einer kleinen Anzahl von Ausreißern angetrieben:

Ansicht Abgestimmte Läufe Repository-nur-Agentenereignisse Agentenereignisse (Δ%) 95% CI für Δ-Ereignisse Prompt-Token (Δ%)
Qwen → Qwen
Rohverlauf 181 99 41 (-59%) [-50%, -42%] 798.000 (-51%)
Zusammenfassende Notizen 181 99 53 (-46%) [-38%, -28%] 572.000 (-65%)
Strukturierte Notizen 181 99 55 (-44%) [-34%, -24%] 646.000 (-60%)
Qwen → Gemma
Rohverlauf 181 49 21 (-57%) [-47%, -33%] 300.000 (-59%)
Zusammenfassende Notizen 181 49 33 (-33%) [-25%, -8%] 319.000 (-57%)
Strukturierte Notizen 181 49 39 (-20%) [-18%, -1%] 317.000 (-57%)
Qwen → Devstral
Rohverlauf 181 175 73 (-58%) [-45%, -22%] 1,65 Mio. (-58%)
Zusammenfassende Notizen 181 175 123 (-30%) [-28%, -15%] 2,28 Mio. (-42%)
Strukturierte Notizen 181 175 125 (-29%) [-28%, -17%] 2,29 Mio. (-42%)

Um zu bestätigen, dass der Effekt nicht durch eine Handvoll ungewöhnlicher Fälle angetrieben wurde, verglichen die Forscher jeden Übergabe mit einem Repository-nur-Übergabe, der am gleichen Punkt startete. Die Reduzierungen blieben über alle Modellkombinationen hinweg konsistent, was darauf hindeutet, dass die Vorteile ein sinnvolles Muster widerspiegeln und nicht durch einige Ausnahmefälle angetrieben werden.

Nimm es mit…

Kurz gesagt, fanden die Autoren heraus, dass einfache Notizen dem zweiten KI-Agenten helfen, die Aufgabe effizienter fortzusetzen, wenn ein KI-Agent eine Aufgabe an einen anderen übergibt.

Vollständige Aufzeichnungen dessen, was passiert ist, funktionieren am besten, aber jede Art von Übergabinformation ist besser, als den Nachfolger dazu zu zwingen, alles aus dem Code allein zu rekonstruieren; und die oben genannten Ergebnisse zeigen, dass der “vollständige” Rohprotokollansatz unweigerlich höhere Tokenkosten hat.

Schlussfolgerung

Obwohl die Arbeit selbst streng an Peer-Forscher gerichtet ist und für den durchschnittlichen Leser begrenzten Reiz hat, beschäftigt sich die neue Arbeit dennoch mit einem der interessantesten und dringendsten Probleme im Zusammenhang mit dem aktuellen Stand der Forschung in menschlicher>KI-Schnittstellen und -Protokollen.

Man könnte hoffen, dass die in dieser Art von Erkundung entwickelten Paradigmen und gewonnenen Erkenntnisse sich letztendlich auf einen breiteren Kontext von KI-Nutzung als nur agierende Codierung erstrecken könnten.

Ein weiterer Forschungsweg könnte darin bestehen, zukünftige Projekte zu untersuchen, um zu bewerten, welches Dokumentationsniveau für ein bestimmtes Projekt aufgrund seiner Merkmale und seines Anwendungsfalls als Minimum angesehen werden könnte. Allerdings kostet auch diese Funktionalität, die dazu beitragen würde, den Aufwand an Zeit und Geld zu rationalisieren, selbst Zeit und Geld; und so bleibt das budgetäre Dilemma, das mit Dokumentationsszenarien verbunden ist, schwer zu überwinden.

 

* Ich habe persönlich für ChatGPT-Sitzungen, die von Verzögerungen und übermäßigem Kontext belastet sind, kürzlich damit begonnen, mit einiger Mühe ein sauberes PDF der Konversation zu exportieren und es als Ausgangspunkt für eine neue Sitzung zu verwenden, die zu “Teil 2” wird.

Leider ist dies nicht die zugänglichste Arbeit, die ich in diesem Jahr gelesen habe, und aus diesem Grund kann ich den Leser nicht zum Quellenwerk empfehlen, obwohl die verdauten Ergebnisse dennoch von Interesse bleiben.

Erstveröffentlichung am Mittwoch, den 3. Juni 2026

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.