Connect with us

Код Людини З 2020 Року Переміг Vibe-Кодованих Агентів У Агентських Тестах

Погляд Anderson

Код Людини З 2020 Року Переміг Vibe-Кодованих Агентів У Агентських Тестах

mm
AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT та інші інструменти vibe-коду були протестовані у майже 40 000 матчів – і програли коду, написаному аспірантами до винайдення великих мовних моделей.

 

У новому дослідженні з Великої Британії дослідники протиставили агентів, написаних людьми, vibe-кодованим агентам, розробленим за допомогою останніх великих мовних моделей (LLM), таких як ChatGPT-5 і Claude, і виявили, що агенти, створені без допомоги ІІ, дуже легко перемогли версії, створені за допомогою ІІ.

Обидва набори агентів були створені різними поколіннями студентів з лабораторії штучного інтелекту Швейцарського федерального технологічного інституту Лозанни. Некодовані агенти були розроблені як частина курсової роботи у 2020 році, за два роки до появи ChatGPT і початку революції LLM, тоді як нові агенти були створені поточними студентами, які використовували найновіші та кращі LLM, доступні на той час.

Навіть з підлаштованою грою, рішення vibe-коду не могли перемогти, а перші п’ять місць займали агенти “в чистому вигляді”, а більшість агентів LLM (33 з 40) легко перемагали базові агенти, у 38 304 викликах у турнірі, у широкому числі змінних і обставин.

У статті зазначається:

‘Наша робота демонструє, що хоча сучасні LLM можуть генерувати код, який запускається (тобто, без синтаксичних помилок), згенерований розв’язок не є конкурентоспроможним до людських розв’язків у таких вимірах, як стратегічне планування, оптимізація чи змагання багатокористувальників.

‘Таким чином, ця робота висуває на передній план цю нову межу у генерації коду, і спрямована на розвиток бенчмарків, наборів даних і відкритих базових ліній, які підкреслюють синтез коду, керований розумуванням.’

Виклик був розроблений для творчої участі в аукціонах, у різних стратегіях, і для організації логістики доставки виграних предметів переможцям.

Автори зазначають, що ряд переваг був наданий LLM, таких як втручання у їхній код для покращення їхньої продуктивності – перевага, яка не була дозволена коду 2020 року. Незважаючи на це, навіть коли їм була надана виправлена версія коду, яка би точно покращила їхні результати, LLM не могли її прийняти або використовувати:

‘[У] нашому бенчмарку навіть коли ми розкриваємо добрий розв’язок у контексті, LLM все одно не може його використовувати.

‘Цей результат також піднімає цікаві майбутні питання про межі навчання у контексті та розв’язання проблем, доповнених пошуком у складних сценаріях.’

LLM, використані у тесті, були GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1, І DeepSeek R1*.

Нова стаття названа Чи може vibe-коди перемогти аспірантів-інформатиків? Турнір LLM проти людського кодування на ринку стратегічного планування, і походять від одного автора з Університету Саутгемптона, і іншого з Університету Оксфорда та Інституту Алана Тюрінга. Бенчмарк, заявляють автори, буде випущений скоро.

Метод

Автори зазначають, що традиційні тести в цій сфері зосереджені на викликах з чітко визначеними бінарними розв’язками (правильно або не правильно), перевірених за допомогою юніт-тестів. Суперечачи, що це не ідеальний спосіб дослідження обмежень кодування LLM, автори замість цього розробили більш складний сценарій виклику, з множинними внутрішніми бенчмарками та віхами, у якому перемога є можливою, але далеко не простою:

Порівняння стандартних підходів, заснованих на юніт-тестах (вище), і більш відкритого сценарію виклику, розробленого авторами (блакитний, нижче). Джерело  [ https://arxiv.org/pdf/2511.20613 ]

Порівняння стандартних підходів, заснованих на юніт-тестах (вище), і більш відкритого сценарію виклику, розробленого авторами (блакитний, нижче). Джерело


Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]