Connect with us

Код Человека из 2020 года разгромил агентов, закодированных настроением, в агентских тестах

Взгляд Anderson

Код Человека из 2020 года разгромил агентов, закодированных настроением, в агентских тестах

mm
AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT и другие инструменты кодирования настроением были протестированы в почти 40 000 матчах – и проиграли коду, написанному аспирантом до изобретения больших языковых моделей.

 

В новом исследовании из Великобритании исследователи противопоставили агентов, закодированных человеком, агентам, разработанным с помощью последних больших языковых моделей (БЯМ), таких как ChatGPT-5 и Claude, и обнаружили, что агенты, созданные без помощи ИИ, легко победили версии, созданные с помощью ИИ.

Оба набора агентов были созданы разными поколениями студентов из лаборатории искусственного интеллекта Швейцарского федерального технологического института в Лозанне. Агенты, не использующие ИИ, были разработаны в рамках курсовой работы в 2020 году, за два года до появления ChatGPT и начала революции БЯМ, в то время как новые агенты были созданы текущими студентами с помощью последних и лучших БЯМ.

Даже с подстроенной игрой решения, закодированные настроением, не смогли выиграть, и пять лучших мест постоянно занимали “сырые” агенты, а большинство агентов БЯМ (33 из 40) легко были побеждены “очень простыми” базовыми агентами, в 38 304 вызовах в турнире, по широкому кругу переменных и обстоятельств.

В статье говорится:

‘Наша работа демонстрирует, что хотя современные БЯМ могут генерировать код, который работает (т.е. свободен от синтаксических ошибок), сгенерированное решение не является конкурентоспособным для человеческих решений по таким измерениям, как стратегическое планирование, оптимизация или многоагентная конкуренция.

‘Таким образом, эта работа подчеркивает эту новую границу в генерации кода и направлена на содействие разработке эталонов, наборов данных и открытым базовым линиям, которые подчеркивают синтез кода, управляемый рассуждениями.’

Вызов был разработан для творческого участия в аукционах, по различным стратегиям, и для организации логистики доставки выигранных предметов победителям.

Авторы отмечают, что БЯМ были даны несколько преимуществ, таких как вмешательство в их код для улучшения их производительности – бонус, который не был разрешен коду 2020 года. Несмотря на это, даже когда им была предоставлена исправленная код, которая, безусловно, улучшит их результаты, БЯМ не смогли принять ее или использовать:

‘[В] нашем эталоне даже когда мы раскрываем хорошее решение в контексте, БЯМ все равно не может использовать его.

‘Этот результат также поднимает интересные вопросы о будущих исследованиях по ограничениям контекстного обучения и решения проблем, дополненных извлечением, в сложных сценариях.’

БЯМ, использованные в тесте, были GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1, И DeepSeek R1*.

Новая статья называется Может ли кодирование настроением победить аспирантов CS? Турнир БЯМ против человеческого кодирования на рынке стратегического планирования, и исходит от одного автора из Университета Саутгемптона и другого из Университета Оксфорда и Института Алана Тьюринга. Эталон, утверждают авторы, скоро будет выпущен.

Метод

Авторы отмечают, что традиционные тесты в этой области фокусируются на вызовах с четко определенным бинарным решением (правильно или неправильно), проверяемым через юнит-тесты. Утверждая, что это не идеальный способ изучения ограничений кодирования БЯМ, авторы вместо этого разработали более сложный сценарий вызова, с несколькими внутренними эталонами и вехами, в котором победа возможна, но далеко не проста:

Сравнение стандартных подходов, основанных на юнит-тестах (выше), и более открытого сценария вызова, разработанного авторами (в синем, ниже). Источник  [ https://arxiv.org/pdf/2511.20613 ]

Сравнение стандартных подходов, основанных на юнит-тестах (выше), и более открытого сценария вызова, разработанного авторами (в синем, ниже). Источник

Проблема аукциона, подачи и доставки (APDP), использованная для исследования авторов, была частично самоотобрана, из-за наличия корпуса работы студентов 2020 года из швейцарского университета; работы, которая стремилась создать автоматические агенты для задачи APDP, до любой возможности укрепить разработку через ИИ. Поэтому было относительно легко поручить современным студентам ту же задачу, но предоставить им современные инструменты.

Авторы стремились избежать популярных тестовых фреймворков, таких как HumanEval, BigCodeBench и WebDev Arena (среди многих других), поскольку этот класс тестовых процедур склонен страдать от загрязнения данных (т.е. случаев, когда система может обучиться на тестовых данных вместо уважения разделения).

APDP – это двухэтапная логистическая проблема, основанная на обратных аукционах и маршрутизации транспортных средств. На первом этапе агенты конкурируют, чтобы выиграть задачи доставки, подавая заявки на то, сколько они должны быть оплачены за выполнение каждой из них. Заявка слишком высокой означает проигрыш задачи; заявка слишком низкой может означать потерю денег.

На втором этапе каждый агент должен создать эффективный план, чтобы выполнить только те задачи, которые они выиграли, назначая их транспортным средствам с разными емкостями и затратами, под временными и ресурсными ограничениями:

В APDP компании участвуют в обратных аукционах для задач доставки, затем оптимизируют маршруты транспортных средств, чтобы выполнить только те задачи, которые они выиграли, стремясь максимизировать прибыль.

В APDP компании участвуют в обратных аукционах для задач доставки, затем оптимизируют маршруты транспортных средств, чтобы выполнить только те задачи, которые они выиграли, стремясь максимизировать прибыль.

Цель – не просто выполнить задачи, но и максимизировать общую прибыль, предвидя, какие наборы задач будут работать лучше всего вместе, и предсказывая стратегии конкурентов, которые пытаются сделать то же самое.

APDP-эталон повышает сложность задач генерации кода, вводя стратегическое планирование через последовательность взаимозависимых аукционов, с каждой заявкой, меняющей ландшафт будущих выборов; и поэтому требует от агентов рассуждения не только о непосредственных затратах, но и о позиционировании, времени и долгосрочных последствиях.

Основная проблема доставки является NP-жесткой, т.е. нет алгоритма, который может надежно найти лучшее решение в разумное время, когда количество задач растет. Это делает брутфорс неработоспособным подходом и заставляет агентов торговать точностью за скорость.

Гонка началась

Оценка авторов сравнила 40 агентов, закодированных БЯМ, с 17 агентами, закодированными человеком, в серии турниров один на один. Каждый из 12 турниров использовал разную комбинацию четырех топологий дорожной сети и состоял из все-против-всех пар, с агентами, сталкивающимися с каждым другим оппонентом дважды: один раз, контролируя каждую из двух компаний, с разными характеристиками транспортных средств.

Эта установка дала 3 192 матча на турнир, в общей сложности 38 304 матча. В каждом матче 50 задач доставки были аукционированы, определены их точками подачи и доставки и весом, и случайно выбраны через дорожные макеты, смоделированные на Швейцарии, Франции, Великобритании и Нидерландах:

Упрощенные дорожные сети, использованные в турнире: Великобритания (вверху слева), Швейцария (вверху справа), Нидерланды (внизу слева) и Франция (внизу справа). Синие и красные квадраты обозначают задачи подачи и доставки. Цветные треугольники показывают текущие позиции транспортных средств агентов.

Упрощенные дорожные сети, использованные в турнире: Великобритания (вверху слева), Швейцария (вверху справа), Нидерланды (внизу слева) и Франция (внизу справа). Синие и красные квадраты обозначают задачи подачи и доставки. Цветные треугольники показывают текущие позиции транспортных средств агентов.

Студенческие агенты были взяты из турнира 2020 года. Восемь из них были из лучших исполнителей в финале на выбывание, и четыре были выбраны за сильную производительность против базовых агентов в матчах один на один.

Базовые агенты следовали фиксированным эвристикам. Наивный рассчитывал общее расстояние и заявлял соответственно, используя только одно транспортное средство и игнорируя пакетирование; ExpCostFixedBid симулировал 10 случайных задач, и заявлял среднюю маржинальную стоимость; Честный вычислял фактическую маржинальную стоимость вставки задачи в график; ModelOpponent делал то же самое, но добавлял оценку стоимости оппонента, заявляя максимум; и RiskSeeking смешивал время-угасающий априорный с живой оценкой стоимости и моделированием оппонента – снова заявляя более высокую из двух.

Оценка включала 40 агентов, закодированных БЯМ, построенных с помощью (вышеупомянутых) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro и DeepSeek R1. Каждая модель была запущена с пятью различными стратегиями, примененными дважды для каждой модели.

Две стратегии использовали статические подсказки, написанные разными авторами, в то время как третья просила модель саморефлексировать и пересмотреть свой собственный вывод; другая включала критику и пересмотр отдельным БЯМ. Последняя стратегия использовала GPT-4 для синтеза новой подсказки, просматривая все четыре предыдущих подхода.

Базовая подсказка отражала исходное студенческое задание, описывая среду доставки и инструктируя модель заявлять и планировать, чтобы максимизировать прибыль, не полагаясь на методы высокой сложности.

Все агенты БЯМ были протестированы в обоих самоигровых и турнирных условиях до тех пор, пока все наблюдаемые ошибки не были исправлены. Исправление ошибок осуществлялось автономно БЯМ themselves, с подсказкой информацией об ошибке.

Общие провалы БЯМ, отмеченные в статье, включали нарушения пределов времени, неудачу в подаче или доставке назначенных задач и нарушения ограничений емкости транспортных средств – ошибки, которые часто возникали из-за игнорирования явных инструкций или из-за ошибочной логики перепланирования:

‘Другой распространенной проблемой, которую мы обнаружили (в основном с Gemini, Claude и DeepSeek, и не так много с GPT), является то, что БЯМ часто последовательно не смогут решить ошибку.

‘Например, агент последовательно превышал время, несмотря на множество (например, 5 – 15) циклов подсказки БЯМ с ошибкой и получения обновленной версии кода.

‘Единственное решение, которое мы нашли для таких ситуаций (где БЯМ повторно не может решить одну и ту же ошибку), – это перезапустить с нуля. В целом мы наблюдали необходимость значительного ручного труда, чтобы достичь кода без ошибок. Нам пришлось сгенерировать значительно больше агентов, чтобы получить 40 агентов без ошибок, которые мы оценили.’

Результаты, приведенные ниже, суммируют результаты из 12 двойных круговых турниров, охватывающих четыре топологии сети и три турнира на топологию, в результате чего получается почти 40 000 матчей:

Агент Среднее количество побед / Тур SD количество побед / Тур Среднее количество поражений / Тур SD количество поражений / Тур Общее количество побед Общее количество поражений Процент побед
Студент 1 108.167 1.193 3.833 1.193 1298 46 0.9658
Студент 2 104.917 2.539 7.083 2.539 1259 85 0.9368
Студент 3 103.917 2.466 8.083 2.466 1247 97 0.9278
Студент 4 103.25 1.815 8.75 1.815 1239 105 0.9219
Студент 5 96.5 2.908 15.5 2.908 1158 186 0.8616
LLM(O, IR, 1) 95.417 2.314 16.583 2.314 1145 199 0.8519
LLM(O, A2, 1) 94.583 2.314 17.417 2.314 1135 209 0.8445
Студент 6 93.167 1.899 18.833 1.899 1118 226 0.8318
Студент 7 93.167 3.563 18.833 3.563 1118 226 0.8318
LLM(O, A1, 1) 86.083 3.029 25.917 3.029 1033 311 0.7686
LLM(O, GEN, 2) 84.083 6.947 27.917 6.947 1009 335 0.7507
LLM(O, CR, 2) 83.5 4.442 28.5 4.442 1002 342 0.7455
Студент 8 83.417 4.122 28.583 4.122 1001 343 0.7448
RiskSeeking 82.417 3.343 29.583 3.343 989 355 0.7359
LLM(O, GEN, 1) 80.667 4.355 31.25 4.372 968 375 0.7208
ModelOpponent 80.583 3.26 31.417 3.26 967 377 0.7195
LLM(D, A1, 1) 79.417 3.965 32.583 3.965 953 391 0.7091
ExpCostFixedBid 77.167 4.951 34.833 4.951 926 418 0.689
LLM(O, IR, 2) 73.917 3.502 38 3.618 887 456 0.6605
LLM(O, A1, 2) 72.417 2.193 39.583 2.193 869 475 0.6466
LLM(G, A1, 2) 68.5 3.555 43.5 3.555 822 522 0.6116
LLM(A, GEN, 2) 67.917 2.968 44.083 2.968 815 529 0.6064
LLM(G, IR, 2) 65.917 2.314 46.083 2.314 791 553 0.5885
Студент 9 64.167 11.044 47.833 11.044 770 574 0.5729
LLM(G, A1, 1) 64 4.243 47.917 4.316 768 575 0.5719
LLM(G, IR, 1) 60.333 3.725 51.667 3.725 724 620 0.5387
LLM(O, A2, 2) 59.333 4.499 52.667 4.499 712 632 0.5298
LLM(D, CR, 1) 55.083 6.694 56.833 6.59 661 682 0.4922
LLM(G, GEN, 2) 53.167 3.664 58.833 3.664 638 706 0.4747
LLM(D, GEN, 2) 52.083 9.06 59.917 9.06 625 719 0.465
Honest 50.583 3.848 61.417 3.848 607 737 0.4516
Студент 10 48.833 2.98 63.167 2.98 586 758 0.436
LLM(D, IR, 1) 48.583 10.211 63.417 10.211 583 761 0.4338
LLM(A, A1, 1) 48 4.69 64 4.69 576 768 0.4286
LLM(G, A1, 1) 47.25 3.864 64.75 3.864 567 777 0.4219
LLM(A, CR, 1) 43.833 4.609 68.167 4.609 526 818 0.3914
LLM(A, A1, 2) 43.75 2.05 68.25 2.05 525 819 0.3906
Студент 11 42.083 5.664 69.917 5.664 505 839 0.3757
LLM(A, IR, 1) 39.5 2.541 72.5 2.541 474 870 0.3527
Naive 36.75 1.712 75.25 1.712 441 903 0.3281
Студент 12 36.333 1.775 75.667 1.775 436 908 0.3244
LLM(D, A2, 1) 33.917 2.193 78.083 2.193 407 937 0.3028
LLM(A, GEN, 1) 30.167 1.749 81.833 1.749 362 982 0.2693
LLM(D, A2, 2) 29.833 2.038 82.167 2.038 358 986 0.2664
LLM(G, A2, 2) 27 2.256 85 2.256 324 1020 0.2411
LLM(A, A2, 1) 26.333 0.985 85.667 0.985 316 1028 0.2351
LLM(O, CR, 1) 25 3.411 87 3.411 300 1044 0.2232
LLM(A, IR, 2) 24.333 8.542 87.667 8.542 292 1052 0.2173
LLM(A, A2, 2) 24 1.809 88 1.809 288 1056 0.2143
LLM(A, CR, 2) 23.333 1.557 88.667 1.557 280 1064 0.2083
LLM(D, GEN, 1) 22.5 1.784 89.5 1.784 270 1074 0.2009
LLM(D, A1, 2) 13.333 1.826 98.667 1.826 160 1184 0.119
LLM(G, CR, 1) 9.5 1.087 102.5 1.087 114 1230 0.0848
LLM(G, GEN, 1) 9.167 0.937 102.833 0.937 110 1234 0.0818
LLM(D, IR, 2) 7.75 0.622 104.25 0.622 93 1251 0.0692
LLM(G, CR, 2) 7.25 1.422 104.75 1.422 87 1257 0.0647
LLM(D, CR, 2) 5.667 0.985 106.333 0.985 68 1276 0.0506

Для контекста, каждый агент сыграл 112 матчей на турнир, поэтому максимально возможное среднее значение для побед или поражений на агента составляет 112. Стандартное отклонение (SD) отражает изменчивость по турнирам. Агенты, закодированные человеком, выделены жирным шрифтом. Агенты, закодированные БЯМ, помечены моделью (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), за которой следует двухбуквенный код стратегии подсказки и цифра, указывающая, является ли агент первым или вторым, сгенерированным с этой подсказкой. Источник

В отношении результатов, приведенных выше, авторы заявляют:

‘БЯМ не сгенерировали ожидаемый/конкурентоспособный код даже в более простых вариантах проблемы APDP (несмотря на то, что код был в основном свободен от синтаксических ошибок). Это подчеркивает важность оценки кода, управляемого рассуждениями, которая выходит за рамки автозаполнения и выявляет новые слабости БЯМ.’

‘Наши результаты демонстрируют явное превосходство агентов, закодированных человеком: (i) первые пять мест постоянно занимают студентов-агентов, и (ii) большинство агентов БЯМ (33 из 40) побеждаются очень простыми базовыми агентами (такими как ожидаемая фиксированная заявка).

‘Важно отметить, что мы не отладили студенческий код (в то время как мы тщательно протестировали/отладили код БЯМ, как в самоигровых, так и в турнирных условиях). Каждый раз, когда студент-агент крахнулся, мы автоматически присудили победу БЯМ. Большое количество этих крахов было бы легко исправлено (например, агенты превысили время), поэтому студент-агенты потенциально могли бы занять еще более высокие места.’

Как дополнительный эксперимент, GPT-5 Thinking была запущена для улучшения кода лучшего студента-агента, Студента 1; но теперь модифицированный агент БЯМ упал на десятое место, теперь худшее из всех человеческих результатов. Вместо того, чтобы улучшить решение, изменения БЯМ ухудшили его почти на 20%.

Авторы заключили:

‘[Наши] результаты подчеркивают важные ограничения генерации кода БЯМ, наиболее заметные из которых являются их ограниченные возможности рассуждения и планирования при генерации [кода]. Современные БЯМ способны предоставить код, свободный от синтаксических ошибок, который работает, но это не тот эталон, который мы должны использовать для измерения прогресса в направлении продвинутого общего ИИ.’

Заключение

Авторы сами отмечают в конце статьи, что кодирование настроением дало людям всех технических фонов возможность, и характеризуют эту практику в положительном свете, как выравнивающую силу. Однако они также подразумевают, что поскольку кодирование настроением только что появилось, его пределы не известны и могут быть приняты за более высокие, чем можно реалистично ожидать.

Они заканчивают свою работу, призывая к сдвигу цели ‘от кода, который компилируется к коду, который конкурирует‘.

Один вопрос, который может возникнуть у случайного читателя этой интересной новой статьи, заключается в том, являются ли авторы ударом вверх или вниз, поскольку агентская задача в вопросе значительно более сложна и сложна, чем выпуск PowerShell-скриптов и других форм малой функциональности и исправлений, для которых кодирование настроением хорошо подходит.

 

* Пожалуйста, обратите внимание, что статья постоянно ссылается на ‘DeepThink R1′, который, кажется, не существует, появляясь только в нескольких ссылках в Интернете (предположительно из других авторов, которые неправильно написали ‘DeepSeek R1)’. Если это моя ошибка, пожалуйста, свяжитесь со мной через мои профильные данные, и я исправлю.

Акцент авторов, не мой.

Опубликовано впервые в среду, 26 ноября 2025 года. Исправлено 17:35 по восточному времени для форматирования.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.