Unghiul lui Anderson

De ce Inteligența Artificială Are Dificultăți în a Prelua o Sarcină Neterminată

mm
AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

Deși agenții de inteligență artificială pot rezolva sarcini complexe, un nou studiu indică faptul că aceștia au dificultăți în a continua lucrul început de altcineva, ceea ce duce la eforturi duplicate, progres mai lent și costuri mai mari.

 

Una dintre cele mai obositoare, dar esențiale sarcini în ceea ce privește agenții de inteligență artificială și interfețele acestora este faptul că inteligența artificială trebuie “adusă la zi” la începutul unei schimbări, în aproape toate cazurile.

În timp ce modelele de limbaj populare, cum ar fi ChatGPT, oferă unele acces la “amintiri persistente” personalizate, implementarea este de obicei o chestiune de noroc; în final, este mai sigur să se accepte efortul de a contextualiza sarcina pentru inteligența artificială – cel puțin, pentru a o face să nu “ghicească” un context greșit din spațiul său de învățare latent.

Prenderea Sarcinilor din Lumea Reală

Provocarea precede inteligența artificială, desigur; multe companii cer deja angajaților săi să mențină documentația referitoare la procesele pe care le dezvoltă sau le rafinează (parțial pentru o integrare mai bună, dar și pentru a evita ca angajații să obțină avantaje).

În practică, însă, este adesea doar companiile mai mari și mai bine finanțate care onorează angajamentul de a crea, actualiza și menține documentația. Foarte des, în schimb, angajații care trebuie să preia lucrul altora primesc o sarcină de “detectiv” care necesită să dezvolte cu atenție cronologia care a condus la lucrul abandonat pe care li s-a dat acum.

Este evident că o documentație impecabilă ar salva zile, săptămâni sau chiar luni de muncă – dacă ar fi o propunere financiară rațională.

Cu toate acestea, acolo unde agenții de inteligență artificială sunt cei care efectuează sarcinile, poate exista o mai mare oportunitate de a rezolva problema.

Încredințarea Sarcinii

Această povară a “nedocumentării” este cuantificată într-un nou studiu de cercetare din Statele Unite, care numește problema datorie de predare.

Dacă datoria tehnică este sindromul în care soluțiile tehnice rapide și ieftine de astăzi duc la soluții fragile sau greu de întreținut în viitor, atunci datoria de predare definește costul redescoperirii – retragerea forensică a pașilor unui lucrător sau entitate care nu este disponibilă pentru a consilia (concediat ostil, prea ocupat, decedat, etc.) sau altfel incapabilă să consilieze (de exemplu, un model de limbaj care a abandonat deja contextul care a condus la starea curentă a lucrului).

Noul studiu – o colaborare între cercetători independenți și afiliați la Universitatea de Stat din Georgia – se ocupă de datoria de predare în ceea ce privește agenții de codare care sunt însărcinate să preia de unde a lăsat-o o altă sesiune, persoană sau entitate într-un depozit de cod.

Unul dintre obiectivele lucrării este de a stabili exact câtă documentație este necesară pentru a reduce datoria de predare și care proceduri și protocoale ar putea fi recomandate ca standard de practică în viitor, pentru a minimiza problema.

Probleme Bugetare

Într-o lume ideală, ar fi posibil să se seteze jurnalizarea la “verbose” și să se alimenteze agentul nou cu jurnalele legate de sarcina neterminată.

Într-adevăr, analiza unui volum atât de mare de date în date utile ar fi atât timp-consuming, cât și ar consuma bugetul de token – precum și ar aduce constrângeri de spațiu de stocare în joc.

Acesta este un problemă bugetară, deoarece utilizarea deversărilor brute este epuizantă, în timp ce utilizarea jurnalelor curate este mai puțin confuză, dar necesită un angajament anterior de resurse.

Notele proprii, dedicate, ar fi foarte eficiente în a aduce un “artist de preluare” la zi, dar la costul unui angajament și mai mare de efort – efort care poate să nu fie niciodată necesar, dacă logica lucrului ar dovedi a fi în cele din urmă evidentă, sau dacă lucrul ar fi abandonat, sau niciodată revizuit din nou.

Autorii noului studiu, intitulat Datoria de predare: Costul redescoperirii atunci când agenții de codare preiau sarcini întrerupte, au luat în considerare toate aceste scenarii și au adaptat modele de sarcini existente la noi moduri de cuantificare și abordare a datoriei de predare. Deși lucrarea se ocupă în mod specific de agenții de codare, ea poate indica totuși direcții utile înainte în contexte mai largi de inteligență artificială și în politici de documentație.

Autorii afirmă:

‘Datoria de predare apare atunci când un agent face progres vizibil, dar lasă o stare pe care un succesor nu o poate continua ușor, cum ar fi editări neexplicate, fișiere de schiță, ipoteze ascunse sau lipsă de dovezi de validare.

‘O metrică bazată numai pe rezoluția finală nu poate distinge între redescoperire costisitoare și continuare eficientă.

‘Doi agenți predecesori pot lăsa același punct de control al depozitului, dar succesorii lor pot face față unor costuri de continuare foarte diferite: unul poate continua imediat, în timp ce altul trebuie să petreacă multe interacțiuni cu uneltele pentru a redescoperi intenția din fișierele de schiță și istoricul de comenzi incomplet.’

Metodă

Autorii definesc predecesor ca agentul anterior (cel care a inițiat sau a efectuat ultima dată lucrul) și succesor ca agentul curent (cel care este însărcinat să preia lucrul).

În sprijinul unui benchmark proiectat pentru a măsura costul transferului de sarcini neterminate de la un agent la altul, 75 de sarcini de la SWE-bench Verified au fost convertite în 181 de sarcini de predare, fiecare reprezentând un punct în care lucrul a fost întrerupt și predat unui agent succesor. Trei modele de agenți succesor diferiți au fost testați pe 2.172 de încercări de preluare.

Familiile de modele utilizate, și amestecate în mod variat în aceste teste de predare, au fost Qwen, Gemma și Devstral.

Experimentele au examinat patru niveluri de informații moștenite: în setarea cea mai restrictivă, agentul succesor a primit doar starea depozitului (efectiv, intrând într-o “zonă de dezastru” nedocumentată). Alte setări au oferit contexte din ce în ce mai detaliate, de la urme de activitate și istoric de comenzi, la rezumate concise care descriu ce a fost deja încercat și învățat:

Depozitul doar

Agentul succesor primește doar depozitul și descrierea sarcinii, fără nicio înregistrare a acțiunilor anterioare, deciziilor sau încercărilor eșuate.

Urma brută

Agentul succesor primește istoricul complet al predecesorului, expunând fiecare comandă, observație, editare, succes și eșec.

Nota de rezumat

Agentul succesor primește un rezumat în limbaj natural generat din istoricul de activitate al predecesorului, condensând informații cheie în proză.

Nota structurată

Agentul succesor primește un document de predare compact care conține câmpuri standardizate care descriu starea sarcinii, modificările efectuate și rezultatele validării.

În loc să se concentreze doar pe faptul că o sarcină a fost rezolvată în cele din urmă, studiul a fost proiectat pentru a măsura costul continuării în sine, cu atenție acordată utilizării uneltelor, consumului de token și cantității de efort necesar pentru a reconstrui raționamentul din spatele lucrului anterior.

Au fost definite trei definiri de detectare a punctului de predare și trei stări de predare pentru experimente:

Detectarea punctului de predare Starea de predare
După prima editare a sursă. După prima schimbare de cod. Agentul anterior a început să lucreze, dar nu a verificat încă dacă schimbarea funcționează. Are nevoie de finalizare. Sarcina este neterminată, iar agentul succesor trebuie să continue lucrul pentru a ajunge la o soluție corectă.
După primul rezultat de validare. Agentul anterior a rulat deja un test sau o validare, oferind unele dovezi despre progres. Deja rezolvat și păstrat. Sarcina a fost efectiv rezolvată, iar agentul succesor trebuie doar să evite a o strica.
După prima editare post-eșec. Un test a eșuat și agentul anterior a încercat deja să răspundă prin efectuarea unei alte schimbări. Comportament existent stricat. Ceva care funcționa anterior este acum stricat.

Date și Teste

Pentru a crea scenarii de predare realiste, benchmark-ul autorilor a fost construit din 75 de sarcini de inginerie software extrase din SWE-Bench Verified, cu accent pe probleme care obișnuiesc să dureze între 15 minute și 4 ore pentru a fi rezolvate.

În loc să evalueze doar sarcinile finalizate, cercetătorii au capturat multiple puncte de control intermediare în timpul lucrului, creând situații în care un agent de inteligență artificială trebuia să preia de la altul:

Construcția benchmark-ului de preluare. Șaptezeci și cinci de sarcini SWE-bench Verified au fost extinse în 181 de puncte de predare care acoperă trei etape de lucru, etichetate în funcție de starea depozitului la momentul preluării și evaluate în patru condiții de partajare a informațiilor, producând 2.172 de rulări de preluare ale agentului succesor. Sursă - https://arxiv.org/pdf/2606.02875

Construcția benchmark-ului de preluare. Șaptezeci și cinci de sarcini SWE-bench Verified au fost extinse în 181 de puncte de predare care acoperă trei etape de lucru, etichetate în funcție de starea depozitului la momentul preluării și evaluate în patru condiții de partajare a informațiilor, producând 2.172 de rulări de preluare ale agentului succesor. Sursă

Deoarece fiecare sarcină putea genera mai multe puncte de predare, iar fiecare punct de predare a fost testat folosind patru forme diferite de informații transferate, benchmark-ul s-a extins rapid, ajungând la 181 de sarcini de predare distincte și 724 de evaluări de preluare pentru fiecare model de agent succesor, producând 2.172 de rulări de preluare pe cele trei sisteme de inteligență artificială testate.

Un mediu de testare de tip OpenHands a fost utilizat pentru testele de codare, cu acțiuni în terminal, înghețarea depozitului la punctele de predare, editarea fișierelor și validarea oficială din benchmark-ul SWE-Bench.

În studiul principal, toate punctele de predare provin din rulări ale predecesorului Qwen, pentru a oferi un punct de plecare fix pentru a evalua diferența dintre diversele combinații de agenți și diversele scenarii.

Perechile de preluare testate au fost Qwen-la-Qwen; Qwen-la-Gemma; și Qwen-la-Devstral.

Urma brută a produs cele mai mari reduceri ale efortului succesor, reducând evenimentele agentului cu 57-59%, în timp ce Nota de rezumat și Nota structurată au redus evenimentele cu 20-46%. Utilizarea token-ului de prompt a scăzut, de asemenea, în toate cele trei abordări, cu reduceri cuprinse între 42-63%:

View Runs Solved rate (Δ pp) Agent events (Δ%) Prompt tokens (Δ%)
Qwen → Qwen
Depozitul doar 181 46.4% 99 1.63M
Urma brută 181 52.5% (+6.1 pp) 41 (-59%) 811k (-50%)
Nota de rezumat 181 51.4% (+5.0 pp) 53 (-46%) 602k (-63%)
Nota structurată 181 50.8% (+4.4 pp) 55 (-44%) 660k (-60%)
Qwen → Gemma
Depozitul doar 181 42.5% 49 738k
Urma brută 181 49.2% (+6.6 pp) 21 (-57%) 300k (-59%)
Nota de rezumat 181 44.2% (+1.7 pp) 33 (-33%) 319k (-57%)
Nota structurată 181 43.6% (+1.1 pp) 39 (-20%) 317k (-57%)
Qwen → Devstral
Depozitul doar 181 34.3% 175 3.94M
Urma brută 181 49.2% (+14.9 pp) 73 (-58%) 1.66M (-58%)
Nota de rezumat 181 43.6% (+9.4 pp) 123 (-30%) 2.30M (-42%)
Nota structurată 181 44.8% (+10.5 pp) 125 (-29%) 2.30M (-42%)

Sub predarea Depozitul doar, agenții succesor au trebuit să petreacă interacțiuni suplimentare pentru a reconstrui intenția predecesorului, dovezi anterioare și abordări eșuate. Urma brută, Nota de rezumat și Nota structurată au transferat direct o parte din această informație, reducând cantitatea de redescoperire necesară, deși la costul unor prompturi inițiale mai mari.

Pentru a testa dacă beneficiile erau reale, fiecare predare bogată în context a fost comparată cu o predare Depozitul doar care a început de la același punct. În toate perechile de modele, predările mai bogate în context au redus în mod constant munca necesară de la agenții succesor.

Urmele complete de evenimente au produs cele mai mari reduceri, în timp ce notele de rezumat și structurate au livrat, de asemenea, economii substanțiale. Efectul a apărut pe tot benchmark-ul, mai degrabă decât a fost condus de câteva exemple neobișnuite:

View Matched Runs Repo-Only Agent Events Agent Events (Δ%) 95% CI for Δ Events Prompt Tokens (Δ%)
Qwen → Qwen
Urma brută 181 99 41 (-59%) [-50%, -42%] 798k (-51%)
Nota de rezumat 181 99 53 (-46%) [-38%, -28%] 572k (-65%)
Nota structurată 181 99 55 (-44%) [-34%, -24%] 646k (-60%)
Qwen → Gemma
Urma brută 181 49 21 (-57%) [-47%, -33%] 300k (-59%)
Nota de rezumat 181 49 33 (-33%) [-25%, -8%] 319k (-57%)
Nota structurată 181 49 39 (-20%) [-18%, -1%] 317k (-57%)
Qwen → Devstral
Urma brută 181 175 73 (-58%) [-45%, -22%] 1.65M (-58%)
Nota de rezumat 181 175 123 (-30%) [-28%, -15%] 2.28M (-42%)
Nota structurată 181 175 125 (-29%) [-28%, -17%] 2.29M (-42%)

Pentru a confirma că efectul nu a fost condus de câteva cazuri neobișnuite, cercetătorii au comparat fiecare predare cu o predare Depozitul doar care a început de la același punct. Reducerile au rămas consistente în toate perechile de modele, indicând faptul că beneficiile reflectă un model semnificativ, mai degrabă decât câteva exemple excepționale.

Încheierea…

În scurt, autorii au descoperit că atunci când un agent de inteligență artificială predă o sarcină altuia, chiar și note simple ajută al doilea agent să continue mai eficient.

Înregistrări complete ale evenimentelor funcționează cel mai bine, dar orice informație de predare este mai bună decât a lăsa succesorul să reconstruiască totul din cod; și rezultatele de mai sus ilustrează faptul că abordarea “deplină” a urmei brute are inevitabil un cost de token mai mare.

Concluzie

Deși articolul în sine se adresează strict cercetătorilor, cu o atracție limitată pentru cititorul obișnuit, noua lucrare abordează totuși una dintre cele mai interesante și presante probleme legate de stadiul actual al interfețelor și protocoalelor om-mașină.

Ar fi de dorit ca paradigmele dezvoltate și insight-urile obținute în acest tip de explorare să poată fi extinse într-un viitor nu prea îndepărtat la un context mai larg de utilizare a inteligenței artificiale decât doar codarea agenților.

O altă direcție de explorare ar putea fi pentru proiectele viitoare să ia în considerare modalități de a evalua ce nivel de documentație ar putea fi considerat minim pentru un anumit proiect, pe baza caracteristicilor și a cazului de utilizare. Cu toate acestea, chiar și această funcționalitate, care ar ajuta la raționalizarea cheltuielilor de timp și bani, costă, la rândul său, timp și bani; și astfel, puzzle-ul bugetar implicat în scenariile de documentație rămâne greu de evitat.

 

* Personal, pentru sesiunile ChatGPT care devin încărcate cu întârzieri și context excesiv, am început recent să export (cu unele dificultăți) un PDF curat al conversației și să îl folosesc ca punct de plecare pentru o nouă sesiune, care devine “partea 2”.

Nu este cel mai accesibil articol pe care l-am citit anul acesta, și din acest motiv nu pot recomanda cititorului să se refere la lucrarea sursă, deși rezultatele digerate rămân de interes.

Publicat pentru prima dată miercuri, 3 iunie 2026

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.