Погляд Anderson
Чому штучний інтелект має труднощі з прийняттям nửa завершеної задачі

Хоча агенти штучного інтелекту можуть вирішувати складні задачі, нове дослідження показує, що їм важко продовжувати роботу, розпочату іншим, що призводить до дублікатів зусиль, повільнішого прогресу та більших витрат.
Одна з найвтомлюваніших, але важливих завдань при роботі з агентами штучного інтелекту та інтерфейсами полягає в тому, що штучному інтелекту потрібно “приbracht до рівня” на початку обміну, майже в кожному випадку.
Хоча популярні моделі мови, такі як ChatGPT, пропонують доступ до “тривалих” особистих пам’яті, реалізація зазвичай є випадковим справою; в кінцевому підсумку, зазвичай безпечніше прийняти зусилля з контекстуалізації завдання для штучного інтелекту – принаймні, щоб зупинити його “вгадування” неправильного контексту з його навчального латентного простору.
Прийняття реальної задачі
Виклик передує штучному інтелекту, звичайно; багато компаній вже вимагають від працівників підтримувати документацію щодо процесів, які вони розробляють або удосконалюють (частково для більш гладкої інтеграції, але й для того, щоб уникнути того, щоб працівники одержали перевагу).
Однак у практиці часто лише великі та краще фінансовані організації дотримуються зобов’язання щодо створення, оновлення та підтримки документації. Часто працівники, яким доручено продовжити роботу інших, одержують “детективне” завдання, яке вимагає від них ретельного розboru хронології, яка привела до покинутої роботи, яку їм тепер доручено.
Навіть очевидно, що ідеальна документація могла б врятувати дні, тижні або навіть місяці роботи – якщо б тільки це було фінансово раціональною пропозицією.
Однак там, де агенти штучного інтелекту є виконавцями у питаннях, може бути більший потенціал для вирішення проблеми.
Передача завдання
Це навантаження “недокументованості” кількісно оцінюється в новій дослідницькій роботі з США, яка називає проблему борг передачі.
Якщо технічний борг – це синдром, при якому швидкі та дешеві технічні рішення сьогодні призводять до крихких або важко підтримуваних рішень у майбутньому, то борг передачі визначає вартість перевідкриття – судової реконструкції кроків працівника або сутності, яка або недоступна для консультацій (ворожа відставка, зайнята, померла тощо) або інакше нездатна порадити (наприклад, штучний інтелект, який давно викинув контекст, який привів до поточного стану роботи).
Нова робота† – співпраця незалежних та дослідників університету Джорджії – займається боргом передачі щодо агентів кодування, яким доручено продовжити роботу, розпочату іншим, у кодовій базі.
Одним з цілей роботи є визначення кількості документації, необхідної для зменшення боргу передачі, та визначення процедур і протоколів, які можуть бути рекомендовані як стандартна практика в майбутньому, щоб мінімізувати проблему.
Бюджетні проблеми
У ідеальному світі можна було б встановити реєстрацію у вигляді “детального журналу” і просто передати новому агенту журнали, пов’язані з незавершеною роботою.
Однак розбор такого обсягу даних у корисну інформацію був би як часу, так і витратним, і також призвів би до обмежень місця зберігання.
Це є бюджетною проблемою, оскільки використання сирої пам’яті виснажливе, а використання відібраних журналів менш плутане, але вимагає попереднього зобов’язання ресурсів.
Належна, присвячена документація була б дуже ефективною для того, щоб привести “майстра прийняття” до рівня, але за рахунок ще більшого зобов’язання зусиль – зусиль, які можуть ніколи не бути потрібними, якщо логіка роботи в кінцевому підсумку виявиться очевидною, або якщо робота буде покинута, або ніколи не переглянута знову.
Автори нової роботи, озаглавленої Борг передачі: Вартість перевідкриття при прийнятті агентами кодування перериваної роботи, розглянули всі ці сценарії та адаптували існуючі моделі завдань до нових способів кількісної оцінки та вирішення боргу передачі. Хоча робота займається конкретно агентами кодування, вона може вказувати на корисні шляхи вперед у ширшому контексті штучного інтелекту та логістики політики документації.
Автори заявляють:
‘Борг передачі виникає, коли агент робить видимий прогрес, але залишає стан, який наступник не може продовжити, такий як необґрунтовані редагування, файли-шкідники, приховані припущення чи відсутня перевірка доказів.
‘Метрика, заснована лише на остаточному вирішенні, не може розрізняти між дорогим перевідкриттям та ефективним продовженням.
‘Два попередніх агенти можуть залишити одну й ту ж репозиторію, але їхні наступники можуть зіткнутися з дуже різними витратами на продовження: один може продовжити негайно, тоді як інший повинен витратити багато взаємодій, щоб перевідкрити намір з файлів-шкідників та неповної історії команд.’
Метод
Автори визначають попереднього як попереднього агента (того, хто походження або останнім виконував роботу) і наступника як поточного агента (того, хто доручено продовжити роботу),
На підтримку бенчмарка, розробленого для вимірювання витрат на передачу незавершених завдань програмної інженерії між агентами, 75 завдань з SWE-bench Verified були перетворені на 181 сценарій передачі, кожен з яких представляв собою точку, в якій робота була переривана та передана наступникові. Три різні моделі наступників були протестовані за 2 172 спроби прийняття.
Модельні сім’ї, використані та різноманітно змішані в цих тестах передачі, були Qwen, Gemma та Devstral.
Експерименти розглянули чотири рівні успадкованої інформації: у найбільш обмеженому режимі наступник одержував лише стан репозиторію (фактично, входячи в недокументований “зону катастрофи”). Інші режими забезпечували дедалі більш детальний контекст, від слідів діяльності та історії команд до компактних підсумків, які описують, що вже було спробувано та вивчено:
| Тільки репозиторій
Наступник одержує лише репозиторій та опис завдання, без жодної інформації про попередні дії, рішення чи невдачі. |
Сирі сліди
Наступник одержує повну історію попередника, розкриваючи кожну команду, спостереження, редагування, успіх та невдачу. |
| Підсумкові нотатки
Наступник одержує підсумок, сгенерований із історії діяльності попередника, конденсуючи ключову інформацію в прозу. |
Структуровані нотатки
Наступник одержує компактний документ передачі, що містить стандартизовані поля, які описують стан завдання, зміни, внесені до нього, та результати перевірки. |
Натомість ніж зосереджуватися лише на тому, чи було завдання в кінцевому підсумку вирішено, дослідження було розроблено для вимірювання витрат на продовження самої роботи, з урахуванням використання інструментів, споживання токенів та кількості зусиль, необхідних для реконструкції логіки попередньої роботи.
Три визначення точки передачі та три стани передачі були визначені для експериментів:
| Визначення точки передачі | Стани передачі |
|---|---|
| Після першого редагування джерела. Після першої зміни коду. Перший агент вже почав працювати, але ще не перевірив, чи змінення справді працює. | Потрібно завершення. Завдання незавершене, і наступник повинен продовжувати роботу, щоб досягти правильного рішення. |
| Після першого результату перевірки. Перший агент вже виконав тест або крок перевірки, надавши деякі свідчення про прогрес. | Вже вирішено та збережено. Завдання було фактично завершено, і завдання наступника полягає в тому, щоб не зруйнувати його. |
| Після першого редагування після невдачі. Тест зазнав невдачі, і перший агент вже спробував відповісти, зробивши ще одну зміну. | Існуюча поведінка зруйнована. Щось, що працювало раніше, тепер зруйновано. |
Дані та тести
Для створення реалістичних сценаріїв передачі автори створили бенчмарк на основі 75 завдань програмної інженерії, взятих з SWE-Bench Verified, з акцентом на проблемах, які зазвичай займають від 15 хвилин до 4 годин для вирішення.
Натомість ніж оцінювати лише завершені завдання, дослідники захопили кілька проміжних контрольних точок під час роботи, створюючи ситуації, у яких один агент штучного інтелекту повинен був продовжити роботу іншого:

Конструкція бенчмарку передачі. 75 завдань SWE-bench Verified були розширені до 181 точки передачі, охоплюючи три стадії роботи, позначені згідно зі станом репозиторію на момент передачі, та оцінені за чотири умови обміну інформацією, що дало загалом 2 172 спроби прийняття наступником. Джерело
Оскільки кожне завдання могло генерувати кілька точок передачі, а кожна передача тестувалася за чотири різні форми переданої інформації, бенчмарк швидко розширився, і кінцевий набір даних складався з 181 окремих завдань передачі та 724 оцінок прийняття для кожного наступника, що дало загалом 2 172 спроби прийняття між трьома тестируваними системами штучного інтелекту.
Для тестів була використана середовище агента кодування типу OpenHands, що включало дії у терміналі, заморожування репозиторію на точках передачі, редагування файлів та офіційну перевірку з бенчмарку SWE-Bench.
У основному дослідженні всі точки передачі походили з попередніх запусків Qwen, щоб забезпечити фіксовану точку початку для оцінки різниці між різними комбінаціями агентів та різними сценаріями.
Тестирувані пари прийняття були Qwen до Qwen; Qwen до Gemma; та Qwen до Devstral.
Сирі сліди дали найбільші зниження зусиль, скоротивши події агентів на 57-59%, тоді як підсумкові нотатки та структуровані нотатки скоротили події на 20-46%. Використання токенів-підказок також зменшилося у всіх трьох підходах, з зниженнями в діапазоні від 42 до 63%:
| Вигляд | Запуски | Відсоток вирішення (Δ pp) | Події агентів (Δ%) | Токени-підказки (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Тільки репозиторій | 181 | 46.4% | 99 | 1.63M |
| Сирі сліди | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| Підсумкові нотатки | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| Структуровані нотатки | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| Тільки репозиторій | 181 | 42.5% | 49 | 738k |
| Сирі сліди | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| Підсумкові нотатки | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| Структуровані нотатки | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| Тільки репозиторій | 181 | 34.3% | 175 | 3.94M |
| Сирі сліди | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| Підсумкові нотатки | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| Структуровані нотатки | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
При передачах тільки репозиторій наступники мали витратити додаткові взаємодії на реконструкцію наміру попередника, попередніх доказів та невдач. Сирі сліди, підсумкові нотатки та структуровані нотатки передавали частину цієї інформації безпосередньо, знижуючи кількість необхідного перевідкриття, хоча й за рахунок більших початкових підказок.
Для перевірки того, чи були здобутки справжніми, кожна інформаційна передача була порівняна з передачею тільки репозиторій, що починалася з того самого місця. У всіх комбінаціях моделей інформаційні передачі послідовно знижували роботу, необхідну для наступників.
Повні сліди подій дали найбільші зниження, тоді як підсумкові та структуровані нотатки також забезпечили суттєві заощадження. Ефект спостерігався по всьому бенчмарку, а не був спричинений кількома винятковими випадками:
| Вигляд | Парні запуски | Події агентів у репозиторії | Події агентів (Δ%) | 95% ДІ для Δ-подій | Токени-підказки (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Сирі сліди | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| Підсумкові нотатки | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| Структуровані нотатки | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| Сирі сліди | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| Підсумкові нотатки | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| Структуровані нотатки | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| Сирі сліди | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| Підсумкові нотатки | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| Структуровані нотатки | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
Для підтвердження того, що ефект не був спричинений кількома винятковими випадками, дослідники порівняли кожну передачу з еквівалентною передачею тільки репозиторій, що починалася з того самого місця. Зниження залишилися послідовними у всіх комбінаціях моделей, вказуючи на те, що вигоди відображають значущий шаблон, а не кілька виняткових прикладів.
Висновок
У короткому підсумку†, автори виявили, що коли один штучний інтелект передає завдання іншому, навіть прості нотатки допомагають другому штучному інтелекту продовжувати роботу більш ефективно.
Повні записи того, що відбулося, працюють найкраще, але будь-яка інформація про передачу краща, ніж залишити наступника реконструювати все з коду самостійно; і результати вище показують, що підхід “повної інформації” має вищий токен-витрат.
Висновок
Хоча сама робота призначена строго для дослідників-перевірювачів, з обмеженою привабливістю для випадкового читача, нова робота все ж таки займається однією з найцікавіших і найпресованіших проблем щодо сучасного стану мистецтва в інтерфейсах та протоколах людини-штучного інтелекту.
Було б бажано, щоб парадигми, розроблені та знання, здобуті в цьому дослідженні, могли в кінцевому підсумку розширити контекст використання штучного інтелекту далі, ніж просто агентське кодування.
Один додатковий напрямок дослідження міг би полягати в тому, щоб майбутні проекти розглянули шляхи оцінки мінімального рівня документації для конкретного проекту, заснованого на його характеристиках та випадку використання. Однак навіть ця функціональність, яка допомогла б раціоналізувати витрати часу та грошей, сама по собі коштує часу та грошей; і таким чином бюджетна дилема, пов’язана з сценаріями документації, залишається важкою для вирішення.
* Особисто, для сесій ChatGPT, які стають надмірно навантаженими та мають надмірний контекст, я останнім часом почав виводити (з деякими труднощами) чистий PDF-чат і використовувати його як початкову точку для нової сесії, яка стає “частиною 2”.’
† На жаль, це не найпривабливіша робота, яку я прочитав цього року, і з цієї причини я не можу рекомендувати читачеві джерельну роботу, хоча й результати залишаються цікавими.
Перше опубліковано середу, 3 червня 2026












