Andersons Blickwinkel

Menschlicher Code aus 2020 besiegt Vibe-Coded-Agents in Agentic-Tests

mm
AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT und andere Vibe-Coding-Tools wurden in fast 40.000 Matches getestet – und verloren gegen Code, der von Studenten vor der Erfindung von Large Language Models geschrieben wurde.

 

In einer neuen Studie aus dem Vereinigten Königreich setzten Forscher human-kodierte Agenten gegen vibe-kodierte Agenten ein, die mit den neuesten Large Language Models (LLMs) wie ChatGPT-5 und Claude entwickelt wurden, und fanden heraus, dass die ohne die Hilfe von KI erstellten Agenten die KI-gestützten Versionen leicht schlugen.

Beide Agentengruppen wurden von verschiedenen Generationen von Studenten des Artificial Intelligence Laboratory am Swiss Federal Technology Institute of Lausanne erstellt. Die nicht-KI-Agenten wurden als Teil eines Kurses im Jahr 2020 entwickelt, zwei Jahre vor der Erfindung von ChatGPT und dem Beginn der LLM-Revolution, während die neuen Agenten von aktuellen Studenten mit den neuesten und besten LLMs erstellt wurden.

Even mit einem manipulierten Spiel konnten die vibe-kodierten Lösungen nicht gewinnen, und die Top-5-Plätze wurden konstant von “rohen” Agenten gehalten, und die Mehrheit der LLM-Agenten (33 von 40) wurde mühelos von “sehr einfachen” Baseline-Agenten besiegt, über 38.304 Herausforderungen in einem Turnier, über eine Vielzahl von Variablen und Umständen.

Das Papier besagt:

‘Unsere Arbeit zeigt, dass zwar state-of-the-art-LLMs Code generieren können, der läuft (d. h. frei von Syntaxfehlern), die generierte Lösung aber nicht wettbewerbsfähig ist mit human-designten Lösungen in Dimensionen wie strategischer Planung, Optimierung oder Multi-Agenten-Wettbewerb.

‘Somit bringt diese Arbeit eine neue Grenze in der Code-Generierung in den Vordergrund und zielt darauf ab, die Entwicklung von Benchmarks, Datenbanken und Open-Source-Baselines zu erleichtern, die reasoning-getriebene Code-Synthese betonen.’

Die Herausforderung, die die Autoren entwarfen, bestand darin, kreativ an Auktionen teilzunehmen, über eine Vielzahl von Strategien und die Logistik der Lieferung von gewonnenen Artikeln an die Gewinner zu organisieren.

Die Autoren bemerken, dass den LLMs eine Reihe von Vorteilen gegeben wurden, wie z. B. die Intervention in ihren Code, um ihre Leistung zu verbessern – ein Vorteil, der den 2020er-Code nicht erlaubt war. Trotzdem konnten die LLMs, selbst wenn sie mit korrigiertem Code versorgt wurden, der ihre Ergebnisse definitiv verbessern würde, diesen nicht annehmen oder verwenden:

‘[In] unserem Benchmark ist der LLM auch dann nicht in der Lage, eine gute Lösung zu nutzen, wenn wir sie in Kontext setzen.

‘Dieses Ergebnis wirft auch interessante Fragen über die Grenzen des in-Kontext-Lernens und der retrieval-augmentierten Problemlösung in komplexen Szenarien auf.’

Die in der Studie verwendeten LLMs waren GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1 und DeepSeek R1*.

Das neue Papier trägt den Titel Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning und stammt von einem Autor der University of Southampton und einem Autor der University of Oxford und Alan Turing Institute. Der Benchmark wird, so die Autoren, in Kürze veröffentlicht.

Methode

Die Autoren bemerken, dass traditionelle Tests in diesem Bereich sich auf Herausforderungen mit klar definierten binären Lösungen (korrekt oder nikt korrekt) konzentrieren, die durch Unit-Tests überprüft werden. Sie argumentieren, dass dies nicht der ideale Weg ist, um die Grenzen von LLM-gestütztem Code zu erforschen, und stattdessen eine komplexere Herausforderungssituation mit mehreren internen Benchmarks und Meilensteinen entwickelten, in der der Sieg möglich ist, aber weit von einfach:

Vergleich von Standard-, unit-test-basierten Ansätzen (oben), und der von den Autoren entwickelten Herausforderungssituation (in Blau, unten). Quelle [ https://arxiv.org/pdf/2511.20613 ]

Vergleich von Standard-, unit-test-basierten Ansätzen (oben), und der von den Autoren entwickelten Herausforderungssituation (in Blau, unten). Quelle

Die Auktion, Abholung und Lieferproblematik (APDP) wurde für die Studie der Autoren verwendet und teilweise selbst ausgewählt, weil eine Korpus von 2020er-Studentenarbeit der Schweizer Universität verfügbar war; Arbeit, die darauf abzielte, automatisierte Agenten für die APDP-Aufgabe zu erstellen, bevor die Möglichkeit bestand, die Entwicklung durch KI zu unterstützen. Es war daher relativ einfach, moderne Studenten mit der gleichen Aufgabe zu betrauen, aber mit aktuellen Tools auszustatten.

Die Autoren suchten, populäre Testframeworks wie HumanEval, BigCodeBench und WebDev Arena (unter vielen anderen) zu vermeiden, da diese Klasse von Testverfahren oft unter Datenkontamination leidet (d. h., Instanzen, in denen das System möglicherweise auf Testdaten trainiert wurde, anstatt einen Split zu respektieren).

Die APDP ist ein zweistufiges Logistikproblem, das auf Reverse-Auktionen und Fahrzeugrouting basiert. In der ersten Stufe konkurrieren die Agenten, um Lieferaufträge zu gewinnen, indem sie Gebote für die Bezahlung jedes Auftrags abgeben. Zu hohe Gebote bedeuten den Verlust des Auftrags; zu niedrige Gebote können zu Verlusten führen.

In der zweiten Stufe muss jeder Agent einen effizienten Plan erstellen, um nur die Aufträge zu erfüllen, die er gewonnen hat, indem er sie Fahrzeugen mit unterschiedlichen Kapazitäten und Kosten zuweist, unter Zeit- und Ressourcenbeschränkungen:

In der APDP bieten Unternehmen in Reverse-Auktionen für Lieferaufträge, dann optimieren sie Fahrzeugrouten, um nur die Aufträge zu erfüllen, die sie gewonnen haben, mit dem Ziel, den Gewinn zu maximieren.

In der APDP bieten Unternehmen in Reverse-Auktionen für Lieferaufträge, dann optimieren sie Fahrzeugrouten, um nur die Aufträge zu erfüllen, die sie gewonnen haben, mit dem Ziel, den Gewinn zu maximieren.

Das Ziel ist nicht nur, die Aufträge zu erfüllen, sondern den Gesamtgewinn zu maximieren, indem man vorhersieht, welche Bündel von Aufträgen am besten zusammenpassen, und die Strategien der Konkurrenten vorhersieht, die alle versuchen, das Gleiche zu tun.

Die APDP-Herausforderung erhöht die Schwierigkeit von Code-Generierungsaufgaben, indem sie strategische Planung über eine Folge von interdependenten Auktionen einführt, bei denen jedes Gebot die Landschaft zukünftiger Entscheidungen neu gestaltet; und daher erfordert sie, dass die Agenten nicht nur über unmittelbare Kosten nachdenken, sondern über Positionierung, Timing und langfristige Konsequenzen.

Das Kernlieferproblem ist NP-hard, d. h., kein Algorithmus kann zuverlässig die beste Lösung in vernünftiger Zeit finden, wenn die Anzahl der Aufträge wächst. Dies macht die brute-force-Methode unpraktikabel und zwingt die Agenten, Präzision gegen Geschwindigkeit zu tauschen.

Der Wettbewerb ist eröffnet

Die Autoren verglichen 40 LLM-kodierte Agenten mit 17 human-kodierten Agenten in einer Reihe von Kopf-an-Kopf-Turnieren. Jedes der 12 Turniere verwendete eine andere Kombination von vier Straßennetz-Topologien und bestand aus all-play-all-Paarungen, wobei die Agenten jeden anderen Gegner zweimal trafen: einmal als Kontrolleur von zwei Unternehmen, mit unterschiedlichen Fahrzeugspezifikationen.

Diese Aufstellung ergab 3.192 Matches pro Turnier, insgesamt 38.304 Matches. In jedem Match wurden 50 Lieferaufträge versteigert, definiert durch ihre Abhol- und Lieferpunkte und Gewicht, und zufällig über Straßenlayouts verteilt, die auf der Schweiz, Frankreich, Großbritannien und den Niederlanden basierten:

Vereinfachte Straßennetze, die im Turnier verwendet wurden: Großbritannien (oben links), Schweiz (oben rechts), Niederlande (unten links) und Frankreich (unten rechts). Blaue und rote Quadrate markieren Abhol- und Lieferaufträge. Farbige Dreiecke zeigen die aktuellen Positionen der Fahrzeuge der Agenten.

Vereinfachte Straßennetze, die im Turnier verwendet wurden: Großbritannien (oben links), Schweiz (oben rechts), Niederlande (unten links) und Frankreich (unten rechts). Blaue und rote Quadrate markieren Abhol- und Lieferaufträge. Farbige Dreiecke zeigen die aktuellen Positionen der Fahrzeuge der Agenten.

Studentenagenten wurden aus einem Turnier von 2020 ausgewählt. Acht kamen aus den Top-Performern in einem Einzel-Eliminationsfinale, und vier weitere wurden für ihre starke Leistung gegen die Baseline-Agents in Kopf-an-Kopf-Matches ausgewählt.

Die Baseline-Agents folgten festen Heuristiken. Naive berechnete die Gesamtentfernung und bot entsprechend, unter Verwendung nur eines Fahrzeugs und Ignorierung von Batching; ExpCostFixedBid simulierte 10 zufällige Aufträge und bot den durchschnittlichen marginales Kosten; Honest berechnete die tatsächlichen marginales Kosten des Einfügens des Auftrags in den Zeitplan; ModelOpponent tat dasselbe, aber fügte eine Schätzung der Kosten des Gegners hinzu, indem er das Maximum bot; und RiskSeeking kombinierte eine zeitlich abnehmende Priorität mit Live-Kosten-Schätzung und Gegner-Modellierung – wiederum das Höhere der beiden bietend.

Die Bewertung umfasste 40 LLM-kodierte Agenten, die mit den (oben genannten) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro und DeepSeek R1 erstellt wurden. Jedes Modell wurde mit fünf unterschiedlichen Strategien aufgefordert, zweimal pro Modell.

Zwei Strategien verwendeten statische Prompts, die von verschiedenen Autoren geschrieben wurden, während eine dritte den Modell aufforderte, sich selbst zu reflektieren und seine eigene Ausgabe zu überarbeiten; eine weitere beinhaltete Kritik und Überarbeitung durch ein separates LLM. Die letzte Strategie verwendete GPT-4, um einen neuen Prompt zu synthetisieren, indem alle vier vorherigen Ansätze überprüft wurden.

Der Basis-Prompt spiegelte die ursprüngliche Studentenaufgabe wider, indem er die Lieferumgebung beschrieb und den Modell aufforderte, zu bieten und zu planen, um den Gewinn zu maximieren, ohne auf komplexe Methoden zurückzugreifen.

Alle LLM-Agents wurden in Selbstspiel- und Turniersituationen getestet, bis alle beobachtbaren Fehler behoben waren. Fehlerbehebung wurde autonom von den LLMs selbst gehandhabt, indem sie mit Fehlerinformationen aufgefordert wurden.

Häufige LLM-Fehler, so das Papier, umfassten Verstöße gegen Zeitlimits, das Versäumnis, zugewiesene Aufträge abzuholen oder zu liefern, und Verstöße gegen Fahrzeugkapazitätsbeschränkungen – Fehler, die oft durch Missachtung expliziter Anweisungen oder fehlerhafte Neuplanung entstanden:

‘Ein weiteres häufiges Problem, das wir festgestellt haben (hauptsächlich mit Gemini, Claude und DeepSeek, und nicht so sehr mit GPT), ist, dass der LLM oft konsequent nicht in der Lage war, einen Fehler zu beheben.

‘Zum Beispiel würde ein Agent konsequent Zeitüberschreitungen haben, trotz mehrerer (z. B. 5 − 15) Zyklen, in denen der LLM mit dem Fehler aufgefordert und die aktualisierte Version des Codes erhalten wurde.

‘Die einzige Lösung, die wir für solche Situationen (in denen der LLM wiederholt nicht in der Lage ist, den gleichen Fehler zu beheben) gefunden haben, ist, von vorne zu beginnen. Insgesamt haben wir festgestellt, dass ein signifikanter manueller Aufwand erforderlich ist, um fehlerfreien Code zu erreichen. Wir mussten wesentlich mehr Agenten generieren, um die 40 fehlerfreien zu erhalten, die wir ausgewertet haben.’

Die Ergebnisse, die unten zusammengefasst sind, umfassen Ergebnisse aus 12 Doppel-Rundenturnieren, die vier Netzwerktopologien und drei Turniere pro Topologie umfassten, mit insgesamt fast 40.000 Matches:

Agent Avg #Wins / Tour SD #Wins / Tour Avg #Losses / Tour SD #Losses / Tour Total Wins Total Losses Winrate
Student 1 108.167 1.193 3.833 1.193 1298 46 0.9658
Student 2 104.917 2.539 7.083 2.539 1259 85 0.9368
Student 3 103.917 2.466 8.083 2.466 1247 97 0.9278
Student 4 103.25 1.815 8.75 1.815 1239 105 0.9219
Student 5 96.5 2.908 15.5 2.908 1158 186 0.8616
LLM(O, IR, 1) 95.417 2.314 16.583 2.314 1145 199 0.8519
LLM(O, A2, 1) 94.583 2.314 17.417 2.314 1135 209 0.8445
Student 6 93.167 1.899 18.833 1.899 1118 226 0.8318
Student 7 93.167 3.563 18.833 3.563 1118 226 0.8318
LLM(O, A1, 1) 86.083 3.029 25.917 3.029 1033 311 0.7686
LLM(O, GEN, 2) 84.083 6.947 27.917 6.947 1009 335 0.7507
LLM(O, CR, 2) 83.5 4.442 28.5 4.442 1002 342 0.7455
Student 8 83.417 4.122 28.583 4.122 1001 343 0.7448
RiskSeeking 82.417 3.343 29.583 3.343 989 355 0.7359
LLM(O, GEN, 1) 80.667 4.355 31.25 4.372 968 375 0.7208
ModelOpponent 80.583 3.26 31.417 3.26 967 377 0.7195
LLM(D, A1, 1) 79.417 3.965 32.583 3.965 953 391 0.7091
ExpCostFixedBid 77.167 4.951 34.833 4.951 926 418 0.689
LLM(O, IR, 2) 73.917 3.502 38 3.618 887 456 0.6605
LLM(O, A1, 2) 72.417 2.193 39.583 2.193 869 475 0.6466
LLM(G, A1, 2) 68.5 3.555 43.5 3.555 822 522 0.6116
LLM(A, GEN, 2) 67.917 2.968 44.083 2.968 815 529 0.6064
LLM(G, IR, 2) 65.917 2.314 46.083 2.314 791 553 0.5885
Student 9 64.167 11.044 47.833 11.044 770 574 0.5729
LLM(G, A1, 1) 64 4.243 47.917 4.316 768 575 0.5719
LLM(G, IR, 1) 60.333 3.725 51.667 3.725 724 620 0.5387
LLM(O, A2, 2) 59.333 4.499 52.667 4.499 712 632 0.5298
LLM(D, CR, 1) 55.083 6.694 56.833 6.59 661 682 0.4922
LLM(G, GEN, 2) 53.167 3.664 58.833 3.664 638 706 0.4747
LLM(D, GEN, 2) 52.083 9.06 59.917 9.06 625 719 0.465
Honest 50.583 3.848 61.417 3.848 607 737 0.4516
Student 10 48.833 2.98 63.167 2.98 586 758 0.436
LLM(D, IR, 1) 48.583 10.211 63.417 10.211 583 761 0.4338
LLM(A, A1, 1) 48 4.69 64 4.69 576 768 0.4286
LLM(G, A2, 1) 47.25 3.864 64.75 3.864 567 777 0.4219
LLM(A, CR, 1) 43.833 4.609 68.167 4.609 526 818 0.3914
LLM(A, A1, 2) 43.75 2.05 68.25 2.05 525 819 0.3906
Student 11 42.083 5.664 69.917 5.664 505 839 0.3757
LLM(A, IR, 1) 39.5 2.541 72.5 2.541 474 870 0.3527
Naive 36.75 1.712 75.25 1.712 441 903 0.3281
Student 12 36.333 1.775 75.667 1.775 436 908 0.3244
LLM(D, A2, 1) 33.917 2.193 78.083 2.193 407 937 0.3028
LLM(A, GEN, 1) 30.167 1.749 81.833 1.749 362 982 0.2693
LLM(D, A2, 2) 29.833 2.038 82.167 2.038 358 986 0.2664
LLM(G, A2, 2) 27 2.256 85 2.256 324 1020 0.2411
LLM(A, A2, 1) 26.333 0.985 85.667 0.985 316 1028 0.2351
LLM(O, CR, 1) 25 3.411 87 3.411 300 1044 0.2232
LLM(A, IR, 2) 24.333 8.542 87.667 8.542 292 1052 0.2173
LLM(A, A2, 2) 24 1.809 88 1.809 288 1056 0.2143
LLM(A, CR, 2) 23.333 1.557 88.667 1.557 280 1064 0.2083
LLM(D, GEN, 1) 22.5 1.784 89.5 1.784 270 1074 0.2009
LLM(D, A1, 2) 13.333 1.826 98.667 1.826 160 1184 0.119
LLM(G, CR, 1) 9.5 1.087 102.5 1.087 114 1230 0.0848
LLM(G, GEN, 1) 9.167 0.937 102.833 0.937 110 1234 0.0818
LLM(D, IR, 2) 7.75 0.622 104.25 0.622 93 1251 0.0692
LLM(G, CR, 2) 7.25 1.422 104.75 1.422 87 1257 0.0647
LLM(D, CR, 2) 5.667 0.985 106.333 0.985 68 1276 0.0506

Um den Kontext zu verstehen, spielte jeder Agent 112 Matches pro Turnier, so dass der maximale mögliche Durchschnitt für Siege oder Niederlagen pro Agent 112 beträgt. Die Standardabweichung (SD) spiegelt die Variabilität über Turniere hinweg wider. Human-kodierte Agenten sind in Fettdruck dargestellt. LLM-kodierte Agenten sind durch Modell (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1) gekennzeichnet, gefolgt von einem zweibuchstabigen Prompt-Strategie-Code und einer Ziffer, die angibt, ob der Agent der erste oder zweite mit diesem Prompt ist. Quelle

In Bezug auf die oben gezeigten Ergebnisse bemerken die Autoren:

‘LLMs generierten keinen erwarteten/wettbewerbsfähigen Code, sogar in einfacheren Varianten des APDP-Problems (trotz des Codes, der größtenteils frei von Syntaxfehlern war). Dies unterstreicht die Bedeutung von reasoning-getriebenen Code-Bewertungsbenchmarks, die über Auto-Vervollständigung hinausgehen und neue Schwächen von LLMs identifizieren.’

‘Unsere Ergebnisse zeigen eine klare Überlegenheit von human-kodierten Agenten: (i) Die Top-5-Plätze werden konstant von Studenten-Agents gehalten, und (ii) die Mehrheit der LLM-Agents (33 von 40) wird von sehr einfachen Baseline-Agents besiegt (wie dem erwarteten Kosten-Festpreis).

‘Wichtig ist, dass wir den Studenten-Code nicht debuggt haben (während wir den LLM-Code gründlich getestet und debuggt haben, sowohl in Selbstspiel- als auch in Turniersituationen). Jedes Mal, wenn ein Studenten-Agent abstürzte, gaben wir automatisch den Sieg an den LLM. Eine große Anzahl dieser Abstürze wäre leicht zu beheben (z. B. Agenten, die Zeitüberschreitungen hatten), so dass die Studenten-Agents möglicherweise höher einstufen könnten.’

Als weiteres Experiment wurde GPT-5 Thinking aufgefordert, den Code des besten human-kodierten Agenten, Student 1, zu verbessern; aber der nun LLM-modifizierte Agent fiel auf den zehnten Platz zurück, nun der schlechteste aller human-kodierten Ergebnisse. Anstatt die Lösung zu verbessern, verschlechterten die LLMs sie um fast 20%.

Die Autoren schlussfolgern:

‘[Unsere] Ergebnisse heben wichtige Grenzen der LLM-Code-Generierung hervor, insbesondere ihre begrenzten Fähigkeiten zur Planung und zum Denken bei der Code-Generierung. Moderne LLMs können syntax-fehlerfreien Code liefern, der läuft, aber das ist nicht der Benchmark, den wir verwenden sollten, um den Fortschritt hin zu fortgeschrittener allgemeiner KI zu messen.’

Schlussfolgerung

Die Autoren selbst bemerken gegen Ende des Papiers, dass Vibe-Coding Menschen aller technischen Hintergründe befähigt hat und beschreiben die Praxis in einem positiven Licht, als eine ausgleichende Kraft. Sie implizieren jedoch auch, dass Vibe-Coding erst kürzlich aufgetaucht ist und seine Grenzen noch nicht bekannt sind und möglicherweise höher sind, als man realistisch erwarten kann.

Sie schließen ihr Angebot mit einem Aufruf zu einem Zielwechsel ab: ‘von Code, der compiliert, zu Code, der konkurriert‘.

Eine Frage, die der interessierte Leser dieses neuen Papiers haben könnte, ist, ob die Autoren nach oben oder unten schlagen, da die agente Aufgabe in Frage wesentlich komplexer und involvierter ist als das Ausstoßen von PowerShell-Skripten und anderen Formen von geringer Funktionalität und Korrekturen, für die Vibe-Coding gut geeignet ist.

 

* Bitte beachten Sie, dass das Papier kontinuierlich auf ‘DeepThink R1′ verweist, was nicht existiert, und nur eine Handvoll von Referenzen im Internet aufweist (vermutlich von anderen Autoren, die ‘DeepSeek R1’ falsch geschrieben haben). Wenn dies mein Fehler ist, bitte kontaktieren Sie mich über meine Profildaten, und ich werde es korrigieren.

Autoren-Betonung, nicht meine.

Erstveröffentlicht am Mittwoch, den 26. November 2025. Geändert am 17:35 Uhr (östliche Zeit) für die Formatierung.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.