Взгляд Anderson
Код Человека из 2020 года разгромил агентов, закодированных настроением, в агентских тестах

ChatGPT и другие инструменты кодирования настроением были протестированы в почти 40 000 матчах – и проиграли коду, написанному аспирантом до изобретения больших языковых моделей.
В новом исследовании из Великобритании исследователи противопоставили агентов, закодированных человеком, агентам, разработанным с помощью последних больших языковых моделей (БЯМ), таких как ChatGPT-5 и Claude, и обнаружили, что агенты, созданные без помощи ИИ, легко победили версии, созданные с помощью ИИ.
Оба набора агентов были созданы разными поколениями студентов из лаборатории искусственного интеллекта Швейцарского федерального технологического института в Лозанне. Агенты, не использующие ИИ, были разработаны в рамках курсовой работы в 2020 году, за два года до появления ChatGPT и начала революции БЯМ, в то время как новые агенты были созданы текущими студентами с помощью последних и лучших БЯМ.
Даже с подстроенной игрой решения, закодированные настроением, не смогли выиграть, и пять лучших мест постоянно занимали “сырые” агенты, а большинство агентов БЯМ (33 из 40) легко были побеждены “очень простыми” базовыми агентами, в 38 304 вызовах в турнире, по широкому кругу переменных и обстоятельств.
В статье говорится:
‘Наша работа демонстрирует, что хотя современные БЯМ могут генерировать код, который работает (т.е. свободен от синтаксических ошибок), сгенерированное решение не является конкурентоспособным для человеческих решений по таким измерениям, как стратегическое планирование, оптимизация или многоагентная конкуренция.
‘Таким образом, эта работа подчеркивает эту новую границу в генерации кода и направлена на содействие разработке эталонов, наборов данных и открытым базовым линиям, которые подчеркивают синтез кода, управляемый рассуждениями.’
Вызов был разработан для творческого участия в аукционах, по различным стратегиям, и для организации логистики доставки выигранных предметов победителям.
Авторы отмечают, что БЯМ были даны несколько преимуществ, таких как вмешательство в их код для улучшения их производительности – бонус, который не был разрешен коду 2020 года. Несмотря на это, даже когда им была предоставлена исправленная код, которая, безусловно, улучшит их результаты, БЯМ не смогли принять ее или использовать:
‘[В] нашем эталоне даже когда мы раскрываем хорошее решение в контексте, БЯМ все равно не может использовать его.
‘Этот результат также поднимает интересные вопросы о будущих исследованиях по ограничениям контекстного обучения и решения проблем, дополненных извлечением, в сложных сценариях.’
БЯМ, использованные в тесте, были GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1, И DeepSeek R1*.
Новая статья называется Может ли кодирование настроением победить аспирантов CS? Турнир БЯМ против человеческого кодирования на рынке стратегического планирования, и исходит от одного автора из Университета Саутгемптона и другого из Университета Оксфорда и Института Алана Тьюринга. Эталон, утверждают авторы, скоро будет выпущен.
Метод
Авторы отмечают, что традиционные тесты в этой области фокусируются на вызовах с четко определенным бинарным решением (правильно или неправильно), проверяемым через юнит-тесты. Утверждая, что это не идеальный способ изучения ограничений кодирования БЯМ, авторы вместо этого разработали более сложный сценарий вызова, с несколькими внутренними эталонами и вехами, в котором победа возможна, но далеко не проста:
![Сравнение стандартных подходов, основанных на юнит-тестах (выше), и более открытого сценария вызова, разработанного авторами (в синем, ниже). Источник [ https://arxiv.org/pdf/2511.20613 ]](https://www.unite.ai/wp-content/uploads/2025/11/figure-1-2.jpg)
Сравнение стандартных подходов, основанных на юнит-тестах (выше), и более открытого сценария вызова, разработанного авторами (в синем, ниже). Источник
Проблема аукциона, подачи и доставки (APDP), использованная для исследования авторов, была частично самоотобрана, из-за наличия корпуса работы студентов 2020 года из швейцарского университета; работы, которая стремилась создать автоматические агенты для задачи APDP, до любой возможности укрепить разработку через ИИ. Поэтому было относительно легко поручить современным студентам ту же задачу, но предоставить им современные инструменты.
Авторы стремились избежать популярных тестовых фреймворков, таких как HumanEval, BigCodeBench и WebDev Arena (среди многих других), поскольку этот класс тестовых процедур склонен страдать от загрязнения данных (т.е. случаев, когда система может обучиться на тестовых данных вместо уважения разделения).
APDP – это двухэтапная логистическая проблема, основанная на обратных аукционах и маршрутизации транспортных средств. На первом этапе агенты конкурируют, чтобы выиграть задачи доставки, подавая заявки на то, сколько они должны быть оплачены за выполнение каждой из них. Заявка слишком высокой означает проигрыш задачи; заявка слишком низкой может означать потерю денег.
На втором этапе каждый агент должен создать эффективный план, чтобы выполнить только те задачи, которые они выиграли, назначая их транспортным средствам с разными емкостями и затратами, под временными и ресурсными ограничениями:

В APDP компании участвуют в обратных аукционах для задач доставки, затем оптимизируют маршруты транспортных средств, чтобы выполнить только те задачи, которые они выиграли, стремясь максимизировать прибыль.
Цель – не просто выполнить задачи, но и максимизировать общую прибыль, предвидя, какие наборы задач будут работать лучше всего вместе, и предсказывая стратегии конкурентов, которые пытаются сделать то же самое.
APDP-эталон повышает сложность задач генерации кода, вводя стратегическое планирование через последовательность взаимозависимых аукционов, с каждой заявкой, меняющей ландшафт будущих выборов; и поэтому требует от агентов рассуждения не только о непосредственных затратах, но и о позиционировании, времени и долгосрочных последствиях.
Основная проблема доставки является NP-жесткой, т.е. нет алгоритма, который может надежно найти лучшее решение в разумное время, когда количество задач растет. Это делает брутфорс неработоспособным подходом и заставляет агентов торговать точностью за скорость.
Гонка началась
Оценка авторов сравнила 40 агентов, закодированных БЯМ, с 17 агентами, закодированными человеком, в серии турниров один на один. Каждый из 12 турниров использовал разную комбинацию четырех топологий дорожной сети и состоял из все-против-всех пар, с агентами, сталкивающимися с каждым другим оппонентом дважды: один раз, контролируя каждую из двух компаний, с разными характеристиками транспортных средств.
Эта установка дала 3 192 матча на турнир, в общей сложности 38 304 матча. В каждом матче 50 задач доставки были аукционированы, определены их точками подачи и доставки и весом, и случайно выбраны через дорожные макеты, смоделированные на Швейцарии, Франции, Великобритании и Нидерландах:

Упрощенные дорожные сети, использованные в турнире: Великобритания (вверху слева), Швейцария (вверху справа), Нидерланды (внизу слева) и Франция (внизу справа). Синие и красные квадраты обозначают задачи подачи и доставки. Цветные треугольники показывают текущие позиции транспортных средств агентов.
Студенческие агенты были взяты из турнира 2020 года. Восемь из них были из лучших исполнителей в финале на выбывание, и четыре были выбраны за сильную производительность против базовых агентов в матчах один на один.
Базовые агенты следовали фиксированным эвристикам. Наивный рассчитывал общее расстояние и заявлял соответственно, используя только одно транспортное средство и игнорируя пакетирование; ExpCostFixedBid симулировал 10 случайных задач, и заявлял среднюю маржинальную стоимость; Честный вычислял фактическую маржинальную стоимость вставки задачи в график; ModelOpponent делал то же самое, но добавлял оценку стоимости оппонента, заявляя максимум; и RiskSeeking смешивал время-угасающий априорный с живой оценкой стоимости и моделированием оппонента – снова заявляя более высокую из двух.
Оценка включала 40 агентов, закодированных БЯМ, построенных с помощью (вышеупомянутых) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro и DeepSeek R1. Каждая модель была запущена с пятью различными стратегиями, примененными дважды для каждой модели.
Две стратегии использовали статические подсказки, написанные разными авторами, в то время как третья просила модель саморефлексировать и пересмотреть свой собственный вывод; другая включала критику и пересмотр отдельным БЯМ. Последняя стратегия использовала GPT-4 для синтеза новой подсказки, просматривая все четыре предыдущих подхода.
Базовая подсказка отражала исходное студенческое задание, описывая среду доставки и инструктируя модель заявлять и планировать, чтобы максимизировать прибыль, не полагаясь на методы высокой сложности.
Все агенты БЯМ были протестированы в обоих самоигровых и турнирных условиях до тех пор, пока все наблюдаемые ошибки не были исправлены. Исправление ошибок осуществлялось автономно БЯМ themselves, с подсказкой информацией об ошибке.
Общие провалы БЯМ, отмеченные в статье, включали нарушения пределов времени, неудачу в подаче или доставке назначенных задач и нарушения ограничений емкости транспортных средств – ошибки, которые часто возникали из-за игнорирования явных инструкций или из-за ошибочной логики перепланирования†:
‘Другой распространенной проблемой, которую мы обнаружили (в основном с Gemini, Claude и DeepSeek, и не так много с GPT), является то, что БЯМ часто последовательно не смогут решить ошибку.
‘Например, агент последовательно превышал время, несмотря на множество (например, 5 – 15) циклов подсказки БЯМ с ошибкой и получения обновленной версии кода.
‘Единственное решение, которое мы нашли для таких ситуаций (где БЯМ повторно не может решить одну и ту же ошибку), – это перезапустить с нуля. В целом мы наблюдали необходимость значительного ручного труда, чтобы достичь кода без ошибок. Нам пришлось сгенерировать значительно больше агентов, чтобы получить 40 агентов без ошибок, которые мы оценили.’
Результаты, приведенные ниже, суммируют результаты из 12 двойных круговых турниров, охватывающих четыре топологии сети и три турнира на топологию, в результате чего получается почти 40 000 матчей:
| Агент | Среднее количество побед / Тур | SD количество побед / Тур | Среднее количество поражений / Тур | SD количество поражений / Тур | Общее количество побед | Общее количество поражений | Процент побед |
|---|---|---|---|---|---|---|---|
| Студент 1 | 108.167 | 1.193 | 3.833 | 1.193 | 1298 | 46 | 0.9658 |
| Студент 2 | 104.917 | 2.539 | 7.083 | 2.539 | 1259 | 85 | 0.9368 |
| Студент 3 | 103.917 | 2.466 | 8.083 | 2.466 | 1247 | 97 | 0.9278 |
| Студент 4 | 103.25 | 1.815 | 8.75 | 1.815 | 1239 | 105 | 0.9219 |
| Студент 5 | 96.5 | 2.908 | 15.5 | 2.908 | 1158 | 186 | 0.8616 |
| LLM(O, IR, 1) | 95.417 | 2.314 | 16.583 | 2.314 | 1145 | 199 | 0.8519 |
| LLM(O, A2, 1) | 94.583 | 2.314 | 17.417 | 2.314 | 1135 | 209 | 0.8445 |
| Студент 6 | 93.167 | 1.899 | 18.833 | 1.899 | 1118 | 226 | 0.8318 |
| Студент 7 | 93.167 | 3.563 | 18.833 | 3.563 | 1118 | 226 | 0.8318 |
| LLM(O, A1, 1) | 86.083 | 3.029 | 25.917 | 3.029 | 1033 | 311 | 0.7686 |
| LLM(O, GEN, 2) | 84.083 | 6.947 | 27.917 | 6.947 | 1009 | 335 | 0.7507 |
| LLM(O, CR, 2) | 83.5 | 4.442 | 28.5 | 4.442 | 1002 | 342 | 0.7455 |
| Студент 8 | 83.417 | 4.122 | 28.583 | 4.122 | 1001 | 343 | 0.7448 |
| RiskSeeking | 82.417 | 3.343 | 29.583 | 3.343 | 989 | 355 | 0.7359 |
| LLM(O, GEN, 1) | 80.667 | 4.355 | 31.25 | 4.372 | 968 | 375 | 0.7208 |
| ModelOpponent | 80.583 | 3.26 | 31.417 | 3.26 | 967 | 377 | 0.7195 |
| LLM(D, A1, 1) | 79.417 | 3.965 | 32.583 | 3.965 | 953 | 391 | 0.7091 |
| ExpCostFixedBid | 77.167 | 4.951 | 34.833 | 4.951 | 926 | 418 | 0.689 |
| LLM(O, IR, 2) | 73.917 | 3.502 | 38 | 3.618 | 887 | 456 | 0.6605 |
| LLM(O, A1, 2) | 72.417 | 2.193 | 39.583 | 2.193 | 869 | 475 | 0.6466 |
| LLM(G, A1, 2) | 68.5 | 3.555 | 43.5 | 3.555 | 822 | 522 | 0.6116 |
| LLM(A, GEN, 2) | 67.917 | 2.968 | 44.083 | 2.968 | 815 | 529 | 0.6064 |
| LLM(G, IR, 2) | 65.917 | 2.314 | 46.083 | 2.314 | 791 | 553 | 0.5885 |
| Студент 9 | 64.167 | 11.044 | 47.833 | 11.044 | 770 | 574 | 0.5729 |
| LLM(G, A1, 1) | 64 | 4.243 | 47.917 | 4.316 | 768 | 575 | 0.5719 |
| LLM(G, IR, 1) | 60.333 | 3.725 | 51.667 | 3.725 | 724 | 620 | 0.5387 |
| LLM(O, A2, 2) | 59.333 | 4.499 | 52.667 | 4.499 | 712 | 632 | 0.5298 |
| LLM(D, CR, 1) | 55.083 | 6.694 | 56.833 | 6.59 | 661 | 682 | 0.4922 |
| LLM(G, GEN, 2) | 53.167 | 3.664 | 58.833 | 3.664 | 638 | 706 | 0.4747 |
| LLM(D, GEN, 2) | 52.083 | 9.06 | 59.917 | 9.06 | 625 | 719 | 0.465 |
| Honest | 50.583 | 3.848 | 61.417 | 3.848 | 607 | 737 | 0.4516 |
| Студент 10 | 48.833 | 2.98 | 63.167 | 2.98 | 586 | 758 | 0.436 |
| LLM(D, IR, 1) | 48.583 | 10.211 | 63.417 | 10.211 | 583 | 761 | 0.4338 |
| LLM(A, A1, 1) | 48 | 4.69 | 64 | 4.69 | 576 | 768 | 0.4286 |
| LLM(G, A1, 1) | 47.25 | 3.864 | 64.75 | 3.864 | 567 | 777 | 0.4219 |
| LLM(A, CR, 1) | 43.833 | 4.609 | 68.167 | 4.609 | 526 | 818 | 0.3914 |
| LLM(A, A1, 2) | 43.75 | 2.05 | 68.25 | 2.05 | 525 | 819 | 0.3906 |
| Студент 11 | 42.083 | 5.664 | 69.917 | 5.664 | 505 | 839 | 0.3757 |
| LLM(A, IR, 1) | 39.5 | 2.541 | 72.5 | 2.541 | 474 | 870 | 0.3527 |
| Naive | 36.75 | 1.712 | 75.25 | 1.712 | 441 | 903 | 0.3281 |
| Студент 12 | 36.333 | 1.775 | 75.667 | 1.775 | 436 | 908 | 0.3244 |
| LLM(D, A2, 1) | 33.917 | 2.193 | 78.083 | 2.193 | 407 | 937 | 0.3028 |
| LLM(A, GEN, 1) | 30.167 | 1.749 | 81.833 | 1.749 | 362 | 982 | 0.2693 |
| LLM(D, A2, 2) | 29.833 | 2.038 | 82.167 | 2.038 | 358 | 986 | 0.2664 |
| LLM(G, A2, 2) | 27 | 2.256 | 85 | 2.256 | 324 | 1020 | 0.2411 |
| LLM(A, A2, 1) | 26.333 | 0.985 | 85.667 | 0.985 | 316 | 1028 | 0.2351 |
| LLM(O, CR, 1) | 25 | 3.411 | 87 | 3.411 | 300 | 1044 | 0.2232 |
| LLM(A, IR, 2) | 24.333 | 8.542 | 87.667 | 8.542 | 292 | 1052 | 0.2173 |
| LLM(A, A2, 2) | 24 | 1.809 | 88 | 1.809 | 288 | 1056 | 0.2143 |
| LLM(A, CR, 2) | 23.333 | 1.557 | 88.667 | 1.557 | 280 | 1064 | 0.2083 |
| LLM(D, GEN, 1) | 22.5 | 1.784 | 89.5 | 1.784 | 270 | 1074 | 0.2009 |
| LLM(D, A1, 2) | 13.333 | 1.826 | 98.667 | 1.826 | 160 | 1184 | 0.119 |
| LLM(G, CR, 1) | 9.5 | 1.087 | 102.5 | 1.087 | 114 | 1230 | 0.0848 |
| LLM(G, GEN, 1) | 9.167 | 0.937 | 102.833 | 0.937 | 110 | 1234 | 0.0818 |
| LLM(D, IR, 2) | 7.75 | 0.622 | 104.25 | 0.622 | 93 | 1251 | 0.0692 |
| LLM(G, CR, 2) | 7.25 | 1.422 | 104.75 | 1.422 | 87 | 1257 | 0.0647 |
| LLM(D, CR, 2) | 5.667 | 0.985 | 106.333 | 0.985 | 68 | 1276 | 0.0506 |
Для контекста, каждый агент сыграл 112 матчей на турнир, поэтому максимально возможное среднее значение для побед или поражений на агента составляет 112. Стандартное отклонение (SD) отражает изменчивость по турнирам. Агенты, закодированные человеком, выделены жирным шрифтом. Агенты, закодированные БЯМ, помечены моделью (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), за которой следует двухбуквенный код стратегии подсказки и цифра, указывающая, является ли агент первым или вторым, сгенерированным с этой подсказкой. Источник
В отношении результатов, приведенных выше, авторы заявляют†:
‘БЯМ не сгенерировали ожидаемый/конкурентоспособный код даже в более простых вариантах проблемы APDP (несмотря на то, что код был в основном свободен от синтаксических ошибок). Это подчеркивает важность оценки кода, управляемого рассуждениями, которая выходит за рамки автозаполнения и выявляет новые слабости БЯМ.’
‘Наши результаты демонстрируют явное превосходство агентов, закодированных человеком: (i) первые пять мест постоянно занимают студентов-агентов, и (ii) большинство агентов БЯМ (33 из 40) побеждаются очень простыми базовыми агентами (такими как ожидаемая фиксированная заявка).
‘Важно отметить, что мы не отладили студенческий код (в то время как мы тщательно протестировали/отладили код БЯМ, как в самоигровых, так и в турнирных условиях). Каждый раз, когда студент-агент крахнулся, мы автоматически присудили победу БЯМ. Большое количество этих крахов было бы легко исправлено (например, агенты превысили время), поэтому студент-агенты потенциально могли бы занять еще более высокие места.’
Как дополнительный эксперимент, GPT-5 Thinking была запущена для улучшения кода лучшего студента-агента, Студента 1; но теперь модифицированный агент БЯМ упал на десятое место, теперь худшее из всех человеческих результатов. Вместо того, чтобы улучшить решение, изменения БЯМ ухудшили его почти на 20%.
Авторы заключили:
‘[Наши] результаты подчеркивают важные ограничения генерации кода БЯМ, наиболее заметные из которых являются их ограниченные возможности рассуждения и планирования при генерации [кода]. Современные БЯМ способны предоставить код, свободный от синтаксических ошибок, который работает, но это не тот эталон, который мы должны использовать для измерения прогресса в направлении продвинутого общего ИИ.’
Заключение
Авторы сами отмечают в конце статьи, что кодирование настроением дало людям всех технических фонов возможность, и характеризуют эту практику в положительном свете, как выравнивающую силу. Однако они также подразумевают, что поскольку кодирование настроением только что появилось, его пределы не известны и могут быть приняты за более высокие, чем можно реалистично ожидать.
Они заканчивают свою работу, призывая к сдвигу цели ‘от кода, который компилируется к коду, который конкурирует‘.
Один вопрос, который может возникнуть у случайного читателя этой интересной новой статьи, заключается в том, являются ли авторы ударом вверх или вниз, поскольку агентская задача в вопросе значительно более сложна и сложна, чем выпуск PowerShell-скриптов и других форм малой функциональности и исправлений, для которых кодирование настроением хорошо подходит.
* Пожалуйста, обратите внимание, что статья постоянно ссылается на ‘DeepThink R1′, который, кажется, не существует, появляясь только в нескольких ссылках в Интернете (предположительно из других авторов, которые неправильно написали ‘DeepSeek R1)’. Если это моя ошибка, пожалуйста, свяжитесь со мной через мои профильные данные, и я исправлю.
† Акцент авторов, не мой.
Опубликовано впервые в среду, 26 ноября 2025 года. Исправлено 17:35 по восточному времени для форматирования.












