Взгляд Anderson

Код Человека из 2020 года разгромил агентов, закодированных настроением, в агентских тестах

Published November 26, 2025

Updated April 1, 2026

Martin Anderson

AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT и другие инструменты кодирования настроением были протестированы в почти 40 000 матчах – и проиграли коду, написанному аспирантом до изобретения больших языковых моделей.

В новом исследовании из Великобритании исследователи противопоставили агентов, закодированных человеком, агентам, разработанным с помощью последних больших языковых моделей (БЯМ), таких как ChatGPT-5 и Claude, и обнаружили, что агенты, созданные без помощи ИИ, легко победили версии, созданные с помощью ИИ.

Оба набора агентов были созданы разными поколениями студентов из лаборатории искусственного интеллекта Швейцарского федерального технологического института в Лозанне. Агенты, не использующие ИИ, были разработаны в рамках курсовой работы в 2020 году, за два года до появления ChatGPT и начала революции БЯМ, в то время как новые агенты были созданы текущими студентами с помощью последних и лучших БЯМ.

Даже с подстроенной игрой решения, закодированные настроением, не смогли выиграть, и пять лучших мест постоянно занимали “сырые” агенты, а большинство агентов БЯМ (33 из 40) легко были побеждены “очень простыми” базовыми агентами, в 38 304 вызовах в турнире, по широкому кругу переменных и обстоятельств.

В статье говорится:

‘Наша работа демонстрирует, что хотя современные БЯМ могут генерировать код, который работает (т.е. свободен от синтаксических ошибок), сгенерированное решение не является конкурентоспособным для человеческих решений по таким измерениям, как стратегическое планирование, оптимизация или многоагентная конкуренция.

‘Таким образом, эта работа подчеркивает эту новую границу в генерации кода и направлена на содействие разработке эталонов, наборов данных и открытым базовым линиям, которые подчеркивают синтез кода, управляемый рассуждениями.’

Вызов был разработан для творческого участия в аукционах, по различным стратегиям, и для организации логистики доставки выигранных предметов победителям.

Авторы отмечают, что БЯМ были даны несколько преимуществ, таких как вмешательство в их код для улучшения их производительности – бонус, который не был разрешен коду 2020 года. Несмотря на это, даже когда им была предоставлена исправленная код, которая, безусловно, улучшит их результаты, БЯМ не смогли принять ее или использовать:

‘[В] нашем эталоне даже когда мы раскрываем хорошее решение в контексте, БЯМ все равно не может использовать его.

‘Этот результат также поднимает интересные вопросы о будущих исследованиях по ограничениям контекстного обучения и решения проблем, дополненных извлечением, в сложных сценариях.’

БЯМ, использованные в тесте, были GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1, И DeepSeek R1*.

Новая статья называется Может ли кодирование настроением победить аспирантов CS? Турнир БЯМ против человеческого кодирования на рынке стратегического планирования, и исходит от одного автора из Университета Саутгемптона и другого из Университета Оксфорда и Института Алана Тьюринга. Эталон, утверждают авторы, скоро будет выпущен.

Метод

Авторы отмечают, что традиционные тесты в этой области фокусируются на вызовах с четко определенным бинарным решением (правильно или неправильно), проверяемым через юнит-тесты. Утверждая, что это не идеальный способ изучения ограничений кодирования БЯМ, авторы вместо этого разработали более сложный сценарий вызова, с несколькими внутренними эталонами и вехами, в котором победа возможна, но далеко не проста:

Сравнение стандартных подходов, основанных на юнит-тестах (выше), и более открытого сценария вызова, разработанного авторами (в синем, ниже). Источник

Проблема аукциона, подачи и доставки (APDP), использованная для исследования авторов, была частично самоотобрана, из-за наличия корпуса работы студентов 2020 года из швейцарского университета; работы, которая стремилась создать автоматические агенты для задачи APDP, до любой возможности укрепить разработку через ИИ. Поэтому было относительно легко поручить современным студентам ту же задачу, но предоставить им современные инструменты.

Авторы стремились избежать популярных тестовых фреймворков, таких как HumanEval, BigCodeBench и WebDev Arena (среди многих других), поскольку этот класс тестовых процедур склонен страдать от загрязнения данных (т.е. случаев, когда система может обучиться на тестовых данных вместо уважения разделения).

APDP – это двухэтапная логистическая проблема, основанная на обратных аукционах и маршрутизации транспортных средств. На первом этапе агенты конкурируют, чтобы выиграть задачи доставки, подавая заявки на то, сколько они должны быть оплачены за выполнение каждой из них. Заявка слишком высокой означает проигрыш задачи; заявка слишком низкой может означать потерю денег.

На втором этапе каждый агент должен создать эффективный план, чтобы выполнить только те задачи, которые они выиграли, назначая их транспортным средствам с разными емкостями и затратами, под временными и ресурсными ограничениями:

В APDP компании участвуют в обратных аукционах для задач доставки, затем оптимизируют маршруты транспортных средств, чтобы выполнить только те задачи, которые они выиграли, стремясь максимизировать прибыль.

Цель – не просто выполнить задачи, но и максимизировать общую прибыль, предвидя, какие наборы задач будут работать лучше всего вместе, и предсказывая стратегии конкурентов, которые пытаются сделать то же самое.

APDP-эталон повышает сложность задач генерации кода, вводя стратегическое планирование через последовательность взаимозависимых аукционов, с каждой заявкой, меняющей ландшафт будущих выборов; и поэтому требует от агентов рассуждения не только о непосредственных затратах, но и о позиционировании, времени и долгосрочных последствиях.

Основная проблема доставки является NP-жесткой, т.е. нет алгоритма, который может надежно найти лучшее решение в разумное время, когда количество задач растет. Это делает брутфорс неработоспособным подходом и заставляет агентов торговать точностью за скорость.

Гонка началась

Оценка авторов сравнила 40 агентов, закодированных БЯМ, с 17 агентами, закодированными человеком, в серии турниров один на один. Каждый из 12 турниров использовал разную комбинацию четырех топологий дорожной сети и состоял из все-против-всех пар, с агентами, сталкивающимися с каждым другим оппонентом дважды: один раз, контролируя каждую из двух компаний, с разными характеристиками транспортных средств.

Эта установка дала 3 192 матча на турнир, в общей сложности 38 304 матча. В каждом матче 50 задач доставки были аукционированы, определены их точками подачи и доставки и весом, и случайно выбраны через дорожные макеты, смоделированные на Швейцарии, Франции, Великобритании и Нидерландах:

Упрощенные дорожные сети, использованные в турнире: Великобритания (вверху слева), Швейцария (вверху справа), Нидерланды (внизу слева) и Франция (внизу справа). Синие и красные квадраты обозначают задачи подачи и доставки. Цветные треугольники показывают текущие позиции транспортных средств агентов.

Студенческие агенты были взяты из турнира 2020 года. Восемь из них были из лучших исполнителей в финале на выбывание, и четыре были выбраны за сильную производительность против базовых агентов в матчах один на один.

Базовые агенты следовали фиксированным эвристикам. Наивный рассчитывал общее расстояние и заявлял соответственно, используя только одно транспортное средство и игнорируя пакетирование; ExpCostFixedBid симулировал 10 случайных задач, и заявлял среднюю маржинальную стоимость; Честный вычислял фактическую маржинальную стоимость вставки задачи в график; ModelOpponent делал то же самое, но добавлял оценку стоимости оппонента, заявляя максимум; и RiskSeeking смешивал время-угасающий априорный с живой оценкой стоимости и моделированием оппонента – снова заявляя более высокую из двух.

Оценка включала 40 агентов, закодированных БЯМ, построенных с помощью (вышеупомянутых) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro и DeepSeek R1. Каждая модель была запущена с пятью различными стратегиями, примененными дважды для каждой модели.

Две стратегии использовали статические подсказки, написанные разными авторами, в то время как третья просила модель саморефлексировать и пересмотреть свой собственный вывод; другая включала критику и пересмотр отдельным БЯМ. Последняя стратегия использовала GPT-4 для синтеза новой подсказки, просматривая все четыре предыдущих подхода.

Базовая подсказка отражала исходное студенческое задание, описывая среду доставки и инструктируя модель заявлять и планировать, чтобы максимизировать прибыль, не полагаясь на методы высокой сложности.

Все агенты БЯМ были протестированы в обоих самоигровых и турнирных условиях до тех пор, пока все наблюдаемые ошибки не были исправлены. Исправление ошибок осуществлялось автономно БЯМ themselves, с подсказкой информацией об ошибке.

Общие провалы БЯМ, отмеченные в статье, включали нарушения пределов времени, неудачу в подаче или доставке назначенных задач и нарушения ограничений емкости транспортных средств – ошибки, которые часто возникали из-за игнорирования явных инструкций или из-за ошибочной логики перепланирования^†:

‘Другой распространенной проблемой, которую мы обнаружили (в основном с Gemini, Claude и DeepSeek, и не так много с GPT), является то, что БЯМ часто последовательно не смогут решить ошибку.

‘Например, агент последовательно превышал время, несмотря на множество (например, 5 – 15) циклов подсказки БЯМ с ошибкой и получения обновленной версии кода.

‘Единственное решение, которое мы нашли для таких ситуаций (где БЯМ повторно не может решить одну и ту же ошибку), – это перезапустить с нуля. В целом мы наблюдали необходимость значительного ручного труда, чтобы достичь кода без ошибок. Нам пришлось сгенерировать значительно больше агентов, чтобы получить 40 агентов без ошибок, которые мы оценили.’

Результаты, приведенные ниже, суммируют результаты из 12 двойных круговых турниров, охватывающих четыре топологии сети и три турнира на топологию, в результате чего получается почти 40 000 матчей:

Агент	Среднее количество побед / Тур	SD количество побед / Тур	Среднее количество поражений / Тур	SD количество поражений / Тур	Общее количество побед	Общее количество поражений	Процент побед
Студент 1	108.167	1.193	3.833	1.193	1298	46	0.9658
Студент 2	104.917	2.539	7.083	2.539	1259	85	0.9368
Студент 3	103.917	2.466	8.083	2.466	1247	97	0.9278
Студент 4	103.25	1.815	8.75	1.815	1239	105	0.9219
Студент 5	96.5	2.908	15.5	2.908	1158	186	0.8616
LLM(O, IR, 1)	95.417	2.314	16.583	2.314	1145	199	0.8519
LLM(O, A2, 1)	94.583	2.314	17.417	2.314	1135	209	0.8445
Студент 6	93.167	1.899	18.833	1.899	1118	226	0.8318
Студент 7	93.167	3.563	18.833	3.563	1118	226	0.8318
LLM(O, A1, 1)	86.083	3.029	25.917	3.029	1033	311	0.7686
LLM(O, GEN, 2)	84.083	6.947	27.917	6.947	1009	335	0.7507
LLM(O, CR, 2)	83.5	4.442	28.5	4.442	1002	342	0.7455
Студент 8	83.417	4.122	28.583	4.122	1001	343	0.7448
RiskSeeking	82.417	3.343	29.583	3.343	989	355	0.7359
LLM(O, GEN, 1)	80.667	4.355	31.25	4.372	968	375	0.7208
ModelOpponent	80.583	3.26	31.417	3.26	967	377	0.7195
LLM(D, A1, 1)	79.417	3.965	32.583	3.965	953	391	0.7091
ExpCostFixedBid	77.167	4.951	34.833	4.951	926	418	0.689
LLM(O, IR, 2)	73.917	3.502	38	3.618	887	456	0.6605
LLM(O, A1, 2)	72.417	2.193	39.583	2.193	869	475	0.6466
LLM(G, A1, 2)	68.5	3.555	43.5	3.555	822	522	0.6116
LLM(A, GEN, 2)	67.917	2.968	44.083	2.968	815	529	0.6064
LLM(G, IR, 2)	65.917	2.314	46.083	2.314	791	553	0.5885
Студент 9	64.167	11.044	47.833	11.044	770	574	0.5729
LLM(G, A1, 1)	64	4.243	47.917	4.316	768	575	0.5719
LLM(G, IR, 1)	60.333	3.725	51.667	3.725	724	620	0.5387
LLM(O, A2, 2)	59.333	4.499	52.667	4.499	712	632	0.5298
LLM(D, CR, 1)	55.083	6.694	56.833	6.59	661	682	0.4922
LLM(G, GEN, 2)	53.167	3.664	58.833	3.664	638	706	0.4747
LLM(D, GEN, 2)	52.083	9.06	59.917	9.06	625	719	0.465
Honest	50.583	3.848	61.417	3.848	607	737	0.4516
Студент 10	48.833	2.98	63.167	2.98	586	758	0.436
LLM(D, IR, 1)	48.583	10.211	63.417	10.211	583	761	0.4338
LLM(A, A1, 1)	48	4.69	64	4.69	576	768	0.4286
LLM(G, A1, 1)	47.25	3.864	64.75	3.864	567	777	0.4219
LLM(A, CR, 1)	43.833	4.609	68.167	4.609	526	818	0.3914
LLM(A, A1, 2)	43.75	2.05	68.25	2.05	525	819	0.3906
Студент 11	42.083	5.664	69.917	5.664	505	839	0.3757
LLM(A, IR, 1)	39.5	2.541	72.5	2.541	474	870	0.3527
Naive	36.75	1.712	75.25	1.712	441	903	0.3281
Студент 12	36.333	1.775	75.667	1.775	436	908	0.3244
LLM(D, A2, 1)	33.917	2.193	78.083	2.193	407	937	0.3028
LLM(A, GEN, 1)	30.167	1.749	81.833	1.749	362	982	0.2693
LLM(D, A2, 2)	29.833	2.038	82.167	2.038	358	986	0.2664
LLM(G, A2, 2)	27	2.256	85	2.256	324	1020	0.2411
LLM(A, A2, 1)	26.333	0.985	85.667	0.985	316	1028	0.2351
LLM(O, CR, 1)	25	3.411	87	3.411	300	1044	0.2232
LLM(A, IR, 2)	24.333	8.542	87.667	8.542	292	1052	0.2173
LLM(A, A2, 2)	24	1.809	88	1.809	288	1056	0.2143
LLM(A, CR, 2)	23.333	1.557	88.667	1.557	280	1064	0.2083
LLM(D, GEN, 1)	22.5	1.784	89.5	1.784	270	1074	0.2009
LLM(D, A1, 2)	13.333	1.826	98.667	1.826	160	1184	0.119
LLM(G, CR, 1)	9.5	1.087	102.5	1.087	114	1230	0.0848
LLM(G, GEN, 1)	9.167	0.937	102.833	0.937	110	1234	0.0818
LLM(D, IR, 2)	7.75	0.622	104.25	0.622	93	1251	0.0692
LLM(G, CR, 2)	7.25	1.422	104.75	1.422	87	1257	0.0647
LLM(D, CR, 2)	5.667	0.985	106.333	0.985	68	1276	0.0506

Для контекста, каждый агент сыграл 112 матчей на турнир, поэтому максимально возможное среднее значение для побед или поражений на агента составляет 112. Стандартное отклонение (SD) отражает изменчивость по турнирам. Агенты, закодированные человеком, выделены жирным шрифтом. Агенты, закодированные БЯМ, помечены моделью (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1), за которой следует двухбуквенный код стратегии подсказки и цифра, указывающая, является ли агент первым или вторым, сгенерированным с этой подсказкой. Источник

В отношении результатов, приведенных выше, авторы заявляют^†:

‘БЯМ не сгенерировали ожидаемый/конкурентоспособный код даже в более простых вариантах проблемы APDP (несмотря на то, что код был в основном свободен от синтаксических ошибок). Это подчеркивает важность оценки кода, управляемого рассуждениями, которая выходит за рамки автозаполнения и выявляет новые слабости БЯМ.’

‘Наши результаты демонстрируют явное превосходство агентов, закодированных человеком: (i) первые пять мест постоянно занимают студентов-агентов, и (ii) большинство агентов БЯМ (33 из 40) побеждаются очень простыми базовыми агентами (такими как ожидаемая фиксированная заявка).

‘Важно отметить, что мы не отладили студенческий код (в то время как мы тщательно протестировали/отладили код БЯМ, как в самоигровых, так и в турнирных условиях). Каждый раз, когда студент-агент крахнулся, мы автоматически присудили победу БЯМ. Большое количество этих крахов было бы легко исправлено (например, агенты превысили время), поэтому студент-агенты потенциально могли бы занять еще более высокие места.’

Как дополнительный эксперимент, GPT-5 Thinking была запущена для улучшения кода лучшего студента-агента, Студента 1; но теперь модифицированный агент БЯМ упал на десятое место, теперь худшее из всех человеческих результатов. Вместо того, чтобы улучшить решение, изменения БЯМ ухудшили его почти на 20%.

Авторы заключили:

‘[Наши] результаты подчеркивают важные ограничения генерации кода БЯМ, наиболее заметные из которых являются их ограниченные возможности рассуждения и планирования при генерации [кода]. Современные БЯМ способны предоставить код, свободный от синтаксических ошибок, который работает, но это не тот эталон, который мы должны использовать для измерения прогресса в направлении продвинутого общего ИИ.’

Заключение

Авторы сами отмечают в конце статьи, что кодирование настроением дало людям всех технических фонов возможность, и характеризуют эту практику в положительном свете, как выравнивающую силу. Однако они также подразумевают, что поскольку кодирование настроением только что появилось, его пределы не известны и могут быть приняты за более высокие, чем можно реалистично ожидать.

Они заканчивают свою работу, призывая к сдвигу цели ‘от кода, который компилируется к коду, который конкурирует‘.

Один вопрос, который может возникнуть у случайного читателя этой интересной новой статьи, заключается в том, являются ли авторы ударом вверх или вниз, поскольку агентская задача в вопросе значительно более сложна и сложна, чем выпуск PowerShell-скриптов и других форм малой функциональности и исправлений, для которых кодирование настроением хорошо подходит.

* Пожалуйста, обратите внимание, что статья постоянно ссылается на ‘DeepThink R1′, который, кажется, не существует, появляясь только в нескольких ссылках в Интернете (предположительно из других авторов, которые неправильно написали ‘DeepSeek R1)’. Если это моя ошибка, пожалуйста, свяжитесь со мной через мои профильные данные, и я исправлю.

^† Акцент авторов, не мой.

Опубликовано впервые в среду, 26 ноября 2025 года. Исправлено 17:35 по восточному времени для форматирования.