Взгляд Anderson
Почему ИИ испытывает трудности с продолжением полузавершенной задачи

Хотя агенты ИИ могут решать сложные задачи, новое исследование показывает, что они испытывают трудности с продолжением работы, начатой другим, что приводит к дублированию усилий, более медленному прогрессу и большим затратам.
Одна из самых изнурительных, но необходимых задач при работе с агентами ИИ и интерфейсами заключается в том, что ИИ необходимо «поднять на уровень» в начале обмена, почти в каждом случае.
Хотя популярные языковые модели, такие как ChatGPT, предлагают некоторый доступ к «постоянным» настраиваемым памяти, реализация обычно представляет собой смесь удачи и неудачи; в конечном итоге обычно безопаснее принять усилия по контекстуализации задачи для ИИ – по крайней мере, чтобы предотвратить неправильный контекст, выведенный из его обучающего латентного пространства.
Продолжение реальной задачи
Эта задача предшествует ИИ, конечно; многие компании уже требуют от сотрудников поддерживать документацию по процессам, которые они разрабатывают или совершенствуют (частично для более гладкого ознакомления, но, возможно, также для того, чтобы сотрудники не получили преимущество).
Однако на практике часто только более крупные и лучше финансируемые организации соблюдают обязательство по созданию, обновлению и поддержанию документации. Очень часто вместо этого сотрудникам, которым поручено продолжить работу других, поручают «детективную» задачу, которая требует от них аккуратно распутать временную шкалу, которая привела к брошенной работе, которую они теперь получили.
Нельзя не согласиться, что безупречная документация могла бы сэкономить дни, недели или даже месяцы работы – если бы только это было финансово рациональным предложением.
Однако, когда речь идет об агентах ИИ, может быть больше возможностей потенциально решить эту проблему.
Передача задачи
Эта нагрузка «недокументирования» количественно определена в новом исследовательском документе из США, который называет эту проблему долг передачи.
Если технический долг – это синдром, при котором быстрые и дешевые технические решения сегодня приводят к хрупким или трудно поддерживаемым решениям в будущем, то долг передачи определяет стоимость переоткрытия – судебно-медицинской реконструкции шагов работника или сущности, которая либо недоступна для консультации (враждебное увольнение, слишком занята, умер и т. д.), либо в противном случае не может проконсультировать (например, ИИ, который давно избавился от контекста, который привел к текущему состоянию работы).
Новая статья† – совместная работа независимых и исследователей, связанных с Университетом Джорджии, – занимается долгом передачи в отношении кодировочных агентов, которым поручено продолжить работу, начатую другим, в кодовой базе.
Одной из целей работы является определение того, сколько документации необходимо для уменьшения долга передачи, и какие процедуры и протоколы могут быть рекомендованы в качестве стандартной практики в будущем для минимизации этой проблемы.
Бюджетные проблемы
В идеальном мире можно было бы установить журналирование в «подробном» режиме и просто передать новому агенту журналы, связанные с незавершенной задачей.
Однако парсинг такого объема данных в полезные данные был бы как время-, так и ресурсоемким, и также привел бы к ограничениям хранилища.
Это является бюджетной проблемой, поскольку использование сырых дампов истощает ресурсы, а использование отредактированных журналов менее запутанно, но требует предварительного обязательства ресурсов.
Надлежащие, специальные заметки были бы очень эффективными для того, чтобы «поднять на уровень» нового агента, но за счет еще большего обязательства усилий – усилий, которые могут никогда не понадобиться, если логика работы окажется в конечном итоге самоочевидной, или если работа брошена или никогда не пересматривается.
Авторы новой работы, озаглавленной Долг передачи: стоимость переоткрытия при кодировании агентов, которые берут на себя прерванные задачи, рассмотрели все эти сценарии и адаптировали существующие модели задач к новым способам количественной оценки и решения долга передачи. Хотя работа касается конкретно кодировочных агентов, она может, тем не менее, указать полезные пути вперед в более широких контекстах ИИ и логистики политики документации.
Авторы заявляют:
‘Долг передачи возникает, когда агент делает видимый прогресс, но оставляет состояние, которое его преемник не может легко продолжить, такое как необъяснимые правки, файлы-черновики, скрытые предположения или отсутствующие доказательства проверки.
‘Метрика, основанная только на окончательном решении, не может различать дорогое переоткрытие и эффективное продолжение.
‘Два предыдущих агента могут оставить один и тот же контрольный пункт репозитория, но их преемники могут столкнуться с очень разными затратами на продолжение: один может продолжить сразу, а другой должен потратить много взаимодействий с инструментами, чтобы заново открыть намерение из файлов-черновиков и неполной истории команд.’
Метод
Авторы определяют предыдущий как предыдущий агент (тот, кто создал или последний выполнял работу) и преемник как текущий агент (тот, кто должен продолжить работу),
В поддержку бенчмарка, предназначенного для измерения стоимости передачи незавершенных задач программной инженерии между агентами, 75 задач из SWE-bench Verified были преобразованы в 181 сценарий передачи, каждый из которых представляет собой точку, в которой работа была прервана и передана преемнику. Три разных модели преемников были затем протестированы на 2 172 попытках захвата.
Модельные семейства, использованные в этих испытаниях по передаче, были Qwen, Gemma и Devstral.
Эксперименты изучали четыре уровня унаследованной информации: в наиболее ограничительном варианте преемник получал только состояние репозитория (по сути, вход в недокументированную «зону катастрофы»).
| Только репозиторий
Преемник получает только репозиторий и описание задачи, без записи предыдущих действий, решений или неудачных попыток. |
Сырой след
Преемник получает полную историю предыдущего агента, раскрывая каждую команду, наблюдение, правку, успех и неудачу. |
| Сводка заметок
Преемник получает сводку, сгенерированную из истории действий предыдущего агента, конденсирующую ключевую информацию в текст. |
Структурированные заметки
Преемник получает компактный документ передачи, содержащий стандартизированные поля, описывающие состояние задачи, внесенные изменения и результаты проверки. |
Вместо того, чтобы сосредоточиться исключительно на том, была ли задача в конечном итоге решена, исследование было разработано для измерения стоимости продолжения самой по себе, с учетом использования инструментов, потребления токенов и количества усилий, необходимых для реконструкции рассуждений, лежащих в основе предыдущей работы.
Три определения точки передачи и три состояния передачи были определены для экспериментов:
| Определение точки передачи | Состояния передачи |
|---|---|
| После первой правки исходного кода. После первой правки кода. Первый агент начал работать, но еще не проверил, работает ли изменение. | Требуется завершение. Задача незавершена, и преемнику необходимо продолжить работу, чтобы достичь правильного решения. |
| После первой проверки. Первый агент уже запустил тест или шаг проверки, предоставив некоторое доказательство прогресса. | Уже решено и сохранено. Задача по сути завершена, и задача преемника – не сломать ее. |
| После первой правки после неудачи. Тест неудачно завершился, и первый агент уже попытался ответить, сделав еще одну правку. | Существующее поведение сломано. Что-то, что работало раньше, теперь сломано. |
Данные и испытания
Чтобы создать реалистичные сценарии передачи, бенчмарк авторов был построен из 75 задач программной инженерии, взятых из SWE-Bench Verified, с упором на проблемы, которые обычно требуют от 15 минут до 4 часов для решения.
Вместо оценки только завершенных задач исследователи захватили несколько промежуточных контрольных точек во время работы, создавая ситуации, когда один агент ИИ должен был взять на себя задачу от другого:

Строительство бенчмарка захвата. 75 задач SWE-bench Verified были расширены до 181 точки передачи, охватывающей три этапа работы, помеченные в соответствии с состоянием репозитория на момент захвата, и оцененные по четырем условиям обмена информацией, в результате чего получилось 2 172 попытки захвата преемником. Источник
Поскольку каждая задача могла сгенерировать несколько точек передачи, и каждая передача тестируется с использованием четырех разных форм передаваемой информации, бенчмарк быстро расширяется, и окончательный набор данных состоит из 181 отдельной задачи передачи и 724 оценки захвата преемником для каждой модели преемника, в результате чего получается 2 172 попытки захвата по трем тестируемым системам ИИ.
В испытаниях использовалась среда кодирования агентов в стиле OpenHands, с действиями в терминале, заморозкой репозитория на момент передачи, редактированием файлов и официальной проверкой из бенчмарка SWE-Bench.
В основном исследовании все точки передачи исходили из запусков Qwen, чтобы обеспечить фиксированную начальную точку для оценки разницы между различными комбинациями агентов и разнообразными сценариями.
Тестируемые пары захвата были Qwen в Qwen; Qwen в Gemma; и Qwen в Devstral.
Сырой след произвел наибольшее снижение усилий преемника, сократив события агентов на 57-59%, в то время как Сводка заметок и Структурированные заметки сократили события на 20-46%. Использование токенов-подсказок также снизилось во всех трех подходах, с сокращением в диапазоне от 42 до 63%:
| Вид | Запуски | Скорость решения (Δ п.п.) | События агентов (Δ%) | Токены-подсказки (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Только репозиторий | 181 | 46,4% | 99 | 1,63 млн |
| Сырой след | 181 | 52,5% (+6,1 п.п.) | 41 (-59%) | 811 тыс. (-50%) |
| Сводка заметок | 181 | 51,4% (+5,0 п.п.) | 53 (-46%) | 602 тыс. (-63%) |
| Структурированные заметки | 181 | 50,8% (+4,4 п.п.) | 55 (-44%) | 660 тыс. (-60%) |
| Qwen → Gemma | ||||
| Только репозиторий | 181 | 42,5% | 49 | 738 тыс. |
| Сырой след | 181 | 49,2% (+6,6 п.п.) | 21 (-57%) | 300 тыс. (-59%) |
| Сводка заметок | 181 | 44,2% (+1,7 п.п.) | 33 (-33%) | 319 тыс. (-57%) |
| Структурированные заметки | 181 | 43,6% (+1,1 п.п.) | 39 (-20%) | 317 тыс. (-57%) |
| Qwen → Devstral | ||||
| Только репозиторий | 181 | 34,3% | 175 | 3,94 млн |
| Сырой след | 181 | 49,2% (+14,9 п.п.) | 73 (-58%) | 1,66 млн (-58%) |
| Сводка заметок | 181 | 43,6% (+9,4 п.п.) | 123 (-30%) | 2,30 млн (-42%) |
| Структурированные заметки | 181 | 44,8% (+10,5 п.п.) | 125 (-29%) | 2,30 млн (-42%) |
При передаче только репозитория преемники должны были тратить дополнительные взаимодействия на реконструкцию намерения предыдущего агента, предыдущих доказательств и неудачных попыток. Сырой след, Сводка заметок и Структурированные заметки передавали часть этой информации напрямую, снижая количество переоткрытий, необходимых для преемника, хотя и за счет более крупных первоначальных подсказок.
Чтобы проверить, являются ли эти выгоды подлинными, каждая передача с богатой информацией была сопоставлена с передачей только репозитория, начиная с одной и той же точки. Во всех парах моделей более богатые передачи последовательно снижали работу, необходимую для преемников.
Полные следы событий произвели наибольшее снижение, в то время как сводка заметок и структурированные заметки также обеспечили значительную экономию. Этот эффект наблюдался во всем бенчмарке, а не был обусловлен несколькими отдельными случаями:
| Вид | Сопоставленные запуски | События агентов только репозитория | События агентов (Δ%) | 95% ДИ для Δ событий | Токены-подсказки (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Сырой след | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798 тыс. (-51%) |
| Сводка заметок | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572 тыс. (-65%) |
| Структурированные заметки | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646 тыс. (-60%) |
| Qwen → Gemma | |||||
| Сырой след | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300 тыс. (-59%) |
| Сводка заметок | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319 тыс. (-57%) |
| Структурированные заметки | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317 тыс. (-57%) |
| Qwen → Devstral | |||||
| Сырой след | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1,65 млн (-58%) |
| Сводка заметок | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2,28 млн (-42%) |
| Структурированные заметки | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2,29 млн (-42%) |
Чтобы подтвердить, что этот эффект не обусловлен несколькими необычными случаями, исследователи сравнили каждую передачу с эквивалентной передачей только репозитория, начиная с одной и той же точки. Снижения остались последовательными во всех парах моделей, указывая на то, что выгоды отражают значимый шаблон, а не несколько исключительных примеров.
Вывод…
Вкратце†, авторы обнаружили, что когда один ИИ передает задачу другому, даже простые заметки помогают второму ИИ продолжать более эффективно.
Полные записи того, что произошло, работают лучше всего, но любая информация о передаче лучше, чем оставление преемника для реконструкции всего из кода; и результаты выше иллюстрируют, что подход «полной информации» неизбежно имеет более высокую стоимость токенов.
Заключение
Хотя сама статья предназначена строго для исследователей-профессионалов, с ограниченным интересом для случайного читателя, новая работа тем не менее решает одну из наиболее интересных и насущных проблем в отношении текущего состояния искусства в интерфейсах и протоколах человека и ИИ.
Можно надеяться, что парадигмы, разработанные и идеи, полученные в этом исследовании, в конечном итоге могут распространиться на более широкий контекст использования ИИ, чем просто агентное кодирование.
Одним из дополнительных направлений исследования может быть рассмотрение способов оценки минимального уровня документации, необходимого для конкретного проекта, на основе его характеристик и случая использования. Однако даже эта функциональность, которая помогла бы рационализировать расход времени и денег, сама по себе стоит времени и денег; и поэтому бюджетный парадокс, связанный с сценариями документации, остается трудным для преодоления.
* Лично я, для сессий ChatGPT, которые становятся обременительными из-за задержки и чрезмерного контекста, в последнее время стал вывозить (с некоторым трудом) чистый PDF-чат и использовать его в качестве начальной точки для новой сессии, которая становится «частью 2».
† К сожалению, это не самая доступная работа, которую я прочитал в этом году, и по этой причине я не могу рекомендовать читателю исходную работу, хотя результаты остаются интересными.
Опубликовано в среду, 3 июня 2026 года












