Andersons Blickwinkel
Menschlicher Code aus 2020 besiegt Vibe-Coded-Agents in Agentic-Tests

ChatGPT und andere Vibe-Coding-Tools wurden in fast 40.000 Matches getestet – und verloren gegen Code, der von Studenten vor der Erfindung von Large Language Models geschrieben wurde.
In einer neuen Studie aus dem Vereinigten Königreich setzten Forscher human-kodierte Agenten gegen vibe-kodierte Agenten ein, die mit den neuesten Large Language Models (LLMs) wie ChatGPT-5 und Claude entwickelt wurden, und fanden heraus, dass die ohne die Hilfe von KI erstellten Agenten die KI-gestützten Versionen leicht schlugen.
Beide Agentengruppen wurden von verschiedenen Generationen von Studenten des Artificial Intelligence Laboratory am Swiss Federal Technology Institute of Lausanne erstellt. Die nicht-KI-Agenten wurden als Teil eines Kurses im Jahr 2020 entwickelt, zwei Jahre vor der Erfindung von ChatGPT und dem Beginn der LLM-Revolution, während die neuen Agenten von aktuellen Studenten mit den neuesten und besten LLMs erstellt wurden.
Even mit einem manipulierten Spiel konnten die vibe-kodierten Lösungen nicht gewinnen, und die Top-5-Plätze wurden konstant von “rohen” Agenten gehalten, und die Mehrheit der LLM-Agenten (33 von 40) wurde mühelos von “sehr einfachen” Baseline-Agenten besiegt, über 38.304 Herausforderungen in einem Turnier, über eine Vielzahl von Variablen und Umständen.
Das Papier besagt:
‘Unsere Arbeit zeigt, dass zwar state-of-the-art-LLMs Code generieren können, der läuft (d. h. frei von Syntaxfehlern), die generierte Lösung aber nicht wettbewerbsfähig ist mit human-designten Lösungen in Dimensionen wie strategischer Planung, Optimierung oder Multi-Agenten-Wettbewerb.
‘Somit bringt diese Arbeit eine neue Grenze in der Code-Generierung in den Vordergrund und zielt darauf ab, die Entwicklung von Benchmarks, Datenbanken und Open-Source-Baselines zu erleichtern, die reasoning-getriebene Code-Synthese betonen.’
Die Herausforderung, die die Autoren entwarfen, bestand darin, kreativ an Auktionen teilzunehmen, über eine Vielzahl von Strategien und die Logistik der Lieferung von gewonnenen Artikeln an die Gewinner zu organisieren.
Die Autoren bemerken, dass den LLMs eine Reihe von Vorteilen gegeben wurden, wie z. B. die Intervention in ihren Code, um ihre Leistung zu verbessern – ein Vorteil, der den 2020er-Code nicht erlaubt war. Trotzdem konnten die LLMs, selbst wenn sie mit korrigiertem Code versorgt wurden, der ihre Ergebnisse definitiv verbessern würde, diesen nicht annehmen oder verwenden:
‘[In] unserem Benchmark ist der LLM auch dann nicht in der Lage, eine gute Lösung zu nutzen, wenn wir sie in Kontext setzen.
‘Dieses Ergebnis wirft auch interessante Fragen über die Grenzen des in-Kontext-Lernens und der retrieval-augmentierten Problemlösung in komplexen Szenarien auf.’
Die in der Studie verwendeten LLMs waren GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1 und DeepSeek R1*.
Das neue Papier trägt den Titel Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning und stammt von einem Autor der University of Southampton und einem Autor der University of Oxford und Alan Turing Institute. Der Benchmark wird, so die Autoren, in Kürze veröffentlicht.
Methode
Die Autoren bemerken, dass traditionelle Tests in diesem Bereich sich auf Herausforderungen mit klar definierten binären Lösungen (korrekt oder nikt korrekt) konzentrieren, die durch Unit-Tests überprüft werden. Sie argumentieren, dass dies nicht der ideale Weg ist, um die Grenzen von LLM-gestütztem Code zu erforschen, und stattdessen eine komplexere Herausforderungssituation mit mehreren internen Benchmarks und Meilensteinen entwickelten, in der der Sieg möglich ist, aber weit von einfach:
![Vergleich von Standard-, unit-test-basierten Ansätzen (oben), und der von den Autoren entwickelten Herausforderungssituation (in Blau, unten). Quelle [ https://arxiv.org/pdf/2511.20613 ]](https://www.unite.ai/wp-content/uploads/2025/11/figure-1-2.jpg)
Vergleich von Standard-, unit-test-basierten Ansätzen (oben), und der von den Autoren entwickelten Herausforderungssituation (in Blau, unten). Quelle
Die Auktion, Abholung und Lieferproblematik (APDP) wurde für die Studie der Autoren verwendet und teilweise selbst ausgewählt, weil eine Korpus von 2020er-Studentenarbeit der Schweizer Universität verfügbar war; Arbeit, die darauf abzielte, automatisierte Agenten für die APDP-Aufgabe zu erstellen, bevor die Möglichkeit bestand, die Entwicklung durch KI zu unterstützen. Es war daher relativ einfach, moderne Studenten mit der gleichen Aufgabe zu betrauen, aber mit aktuellen Tools auszustatten.
Die Autoren suchten, populäre Testframeworks wie HumanEval, BigCodeBench und WebDev Arena (unter vielen anderen) zu vermeiden, da diese Klasse von Testverfahren oft unter Datenkontamination leidet (d. h., Instanzen, in denen das System möglicherweise auf Testdaten trainiert wurde, anstatt einen Split zu respektieren).
Die APDP ist ein zweistufiges Logistikproblem, das auf Reverse-Auktionen und Fahrzeugrouting basiert. In der ersten Stufe konkurrieren die Agenten, um Lieferaufträge zu gewinnen, indem sie Gebote für die Bezahlung jedes Auftrags abgeben. Zu hohe Gebote bedeuten den Verlust des Auftrags; zu niedrige Gebote können zu Verlusten führen.
In der zweiten Stufe muss jeder Agent einen effizienten Plan erstellen, um nur die Aufträge zu erfüllen, die er gewonnen hat, indem er sie Fahrzeugen mit unterschiedlichen Kapazitäten und Kosten zuweist, unter Zeit- und Ressourcenbeschränkungen:

In der APDP bieten Unternehmen in Reverse-Auktionen für Lieferaufträge, dann optimieren sie Fahrzeugrouten, um nur die Aufträge zu erfüllen, die sie gewonnen haben, mit dem Ziel, den Gewinn zu maximieren.
Das Ziel ist nicht nur, die Aufträge zu erfüllen, sondern den Gesamtgewinn zu maximieren, indem man vorhersieht, welche Bündel von Aufträgen am besten zusammenpassen, und die Strategien der Konkurrenten vorhersieht, die alle versuchen, das Gleiche zu tun.
Die APDP-Herausforderung erhöht die Schwierigkeit von Code-Generierungsaufgaben, indem sie strategische Planung über eine Folge von interdependenten Auktionen einführt, bei denen jedes Gebot die Landschaft zukünftiger Entscheidungen neu gestaltet; und daher erfordert sie, dass die Agenten nicht nur über unmittelbare Kosten nachdenken, sondern über Positionierung, Timing und langfristige Konsequenzen.
Das Kernlieferproblem ist NP-hard, d. h., kein Algorithmus kann zuverlässig die beste Lösung in vernünftiger Zeit finden, wenn die Anzahl der Aufträge wächst. Dies macht die brute-force-Methode unpraktikabel und zwingt die Agenten, Präzision gegen Geschwindigkeit zu tauschen.
Der Wettbewerb ist eröffnet
Die Autoren verglichen 40 LLM-kodierte Agenten mit 17 human-kodierten Agenten in einer Reihe von Kopf-an-Kopf-Turnieren. Jedes der 12 Turniere verwendete eine andere Kombination von vier Straßennetz-Topologien und bestand aus all-play-all-Paarungen, wobei die Agenten jeden anderen Gegner zweimal trafen: einmal als Kontrolleur von zwei Unternehmen, mit unterschiedlichen Fahrzeugspezifikationen.
Diese Aufstellung ergab 3.192 Matches pro Turnier, insgesamt 38.304 Matches. In jedem Match wurden 50 Lieferaufträge versteigert, definiert durch ihre Abhol- und Lieferpunkte und Gewicht, und zufällig über Straßenlayouts verteilt, die auf der Schweiz, Frankreich, Großbritannien und den Niederlanden basierten:

Vereinfachte Straßennetze, die im Turnier verwendet wurden: Großbritannien (oben links), Schweiz (oben rechts), Niederlande (unten links) und Frankreich (unten rechts). Blaue und rote Quadrate markieren Abhol- und Lieferaufträge. Farbige Dreiecke zeigen die aktuellen Positionen der Fahrzeuge der Agenten.
Studentenagenten wurden aus einem Turnier von 2020 ausgewählt. Acht kamen aus den Top-Performern in einem Einzel-Eliminationsfinale, und vier weitere wurden für ihre starke Leistung gegen die Baseline-Agents in Kopf-an-Kopf-Matches ausgewählt.
Die Baseline-Agents folgten festen Heuristiken. Naive berechnete die Gesamtentfernung und bot entsprechend, unter Verwendung nur eines Fahrzeugs und Ignorierung von Batching; ExpCostFixedBid simulierte 10 zufällige Aufträge und bot den durchschnittlichen marginales Kosten; Honest berechnete die tatsächlichen marginales Kosten des Einfügens des Auftrags in den Zeitplan; ModelOpponent tat dasselbe, aber fügte eine Schätzung der Kosten des Gegners hinzu, indem er das Maximum bot; und RiskSeeking kombinierte eine zeitlich abnehmende Priorität mit Live-Kosten-Schätzung und Gegner-Modellierung – wiederum das Höhere der beiden bietend.
Die Bewertung umfasste 40 LLM-kodierte Agenten, die mit den (oben genannten) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro und DeepSeek R1 erstellt wurden. Jedes Modell wurde mit fünf unterschiedlichen Strategien aufgefordert, zweimal pro Modell.
Zwei Strategien verwendeten statische Prompts, die von verschiedenen Autoren geschrieben wurden, während eine dritte den Modell aufforderte, sich selbst zu reflektieren und seine eigene Ausgabe zu überarbeiten; eine weitere beinhaltete Kritik und Überarbeitung durch ein separates LLM. Die letzte Strategie verwendete GPT-4, um einen neuen Prompt zu synthetisieren, indem alle vier vorherigen Ansätze überprüft wurden.
Der Basis-Prompt spiegelte die ursprüngliche Studentenaufgabe wider, indem er die Lieferumgebung beschrieb und den Modell aufforderte, zu bieten und zu planen, um den Gewinn zu maximieren, ohne auf komplexe Methoden zurückzugreifen.
Alle LLM-Agents wurden in Selbstspiel- und Turniersituationen getestet, bis alle beobachtbaren Fehler behoben waren. Fehlerbehebung wurde autonom von den LLMs selbst gehandhabt, indem sie mit Fehlerinformationen aufgefordert wurden.
Häufige LLM-Fehler, so das Papier, umfassten Verstöße gegen Zeitlimits, das Versäumnis, zugewiesene Aufträge abzuholen oder zu liefern, und Verstöße gegen Fahrzeugkapazitätsbeschränkungen – Fehler, die oft durch Missachtung expliziter Anweisungen oder fehlerhafte Neuplanung entstanden:
‘Ein weiteres häufiges Problem, das wir festgestellt haben (hauptsächlich mit Gemini, Claude und DeepSeek, und nicht so sehr mit GPT), ist, dass der LLM oft konsequent nicht in der Lage war, einen Fehler zu beheben.
‘Zum Beispiel würde ein Agent konsequent Zeitüberschreitungen haben, trotz mehrerer (z. B. 5 − 15) Zyklen, in denen der LLM mit dem Fehler aufgefordert und die aktualisierte Version des Codes erhalten wurde.
‘Die einzige Lösung, die wir für solche Situationen (in denen der LLM wiederholt nicht in der Lage ist, den gleichen Fehler zu beheben) gefunden haben, ist, von vorne zu beginnen. Insgesamt haben wir festgestellt, dass ein signifikanter manueller Aufwand erforderlich ist, um fehlerfreien Code zu erreichen. Wir mussten wesentlich mehr Agenten generieren, um die 40 fehlerfreien zu erhalten, die wir ausgewertet haben.’
Die Ergebnisse, die unten zusammengefasst sind, umfassen Ergebnisse aus 12 Doppel-Rundenturnieren, die vier Netzwerktopologien und drei Turniere pro Topologie umfassten, mit insgesamt fast 40.000 Matches:
| Agent | Avg #Wins / Tour | SD #Wins / Tour | Avg #Losses / Tour | SD #Losses / Tour | Total Wins | Total Losses | Winrate |
|---|---|---|---|---|---|---|---|
| Student 1 | 108.167 | 1.193 | 3.833 | 1.193 | 1298 | 46 | 0.9658 |
| Student 2 | 104.917 | 2.539 | 7.083 | 2.539 | 1259 | 85 | 0.9368 |
| Student 3 | 103.917 | 2.466 | 8.083 | 2.466 | 1247 | 97 | 0.9278 |
| Student 4 | 103.25 | 1.815 | 8.75 | 1.815 | 1239 | 105 | 0.9219 |
| Student 5 | 96.5 | 2.908 | 15.5 | 2.908 | 1158 | 186 | 0.8616 |
| LLM(O, IR, 1) | 95.417 | 2.314 | 16.583 | 2.314 | 1145 | 199 | 0.8519 |
| LLM(O, A2, 1) | 94.583 | 2.314 | 17.417 | 2.314 | 1135 | 209 | 0.8445 |
| Student 6 | 93.167 | 1.899 | 18.833 | 1.899 | 1118 | 226 | 0.8318 |
| Student 7 | 93.167 | 3.563 | 18.833 | 3.563 | 1118 | 226 | 0.8318 |
| LLM(O, A1, 1) | 86.083 | 3.029 | 25.917 | 3.029 | 1033 | 311 | 0.7686 |
| LLM(O, GEN, 2) | 84.083 | 6.947 | 27.917 | 6.947 | 1009 | 335 | 0.7507 |
| LLM(O, CR, 2) | 83.5 | 4.442 | 28.5 | 4.442 | 1002 | 342 | 0.7455 |
| Student 8 | 83.417 | 4.122 | 28.583 | 4.122 | 1001 | 343 | 0.7448 |
| RiskSeeking | 82.417 | 3.343 | 29.583 | 3.343 | 989 | 355 | 0.7359 |
| LLM(O, GEN, 1) | 80.667 | 4.355 | 31.25 | 4.372 | 968 | 375 | 0.7208 |
| ModelOpponent | 80.583 | 3.26 | 31.417 | 3.26 | 967 | 377 | 0.7195 |
| LLM(D, A1, 1) | 79.417 | 3.965 | 32.583 | 3.965 | 953 | 391 | 0.7091 |
| ExpCostFixedBid | 77.167 | 4.951 | 34.833 | 4.951 | 926 | 418 | 0.689 |
| LLM(O, IR, 2) | 73.917 | 3.502 | 38 | 3.618 | 887 | 456 | 0.6605 |
| LLM(O, A1, 2) | 72.417 | 2.193 | 39.583 | 2.193 | 869 | 475 | 0.6466 |
| LLM(G, A1, 2) | 68.5 | 3.555 | 43.5 | 3.555 | 822 | 522 | 0.6116 |
| LLM(A, GEN, 2) | 67.917 | 2.968 | 44.083 | 2.968 | 815 | 529 | 0.6064 |
| LLM(G, IR, 2) | 65.917 | 2.314 | 46.083 | 2.314 | 791 | 553 | 0.5885 |
| Student 9 | 64.167 | 11.044 | 47.833 | 11.044 | 770 | 574 | 0.5729 |
| LLM(G, A1, 1) | 64 | 4.243 | 47.917 | 4.316 | 768 | 575 | 0.5719 |
| LLM(G, IR, 1) | 60.333 | 3.725 | 51.667 | 3.725 | 724 | 620 | 0.5387 |
| LLM(O, A2, 2) | 59.333 | 4.499 | 52.667 | 4.499 | 712 | 632 | 0.5298 |
| LLM(D, CR, 1) | 55.083 | 6.694 | 56.833 | 6.59 | 661 | 682 | 0.4922 |
| LLM(G, GEN, 2) | 53.167 | 3.664 | 58.833 | 3.664 | 638 | 706 | 0.4747 |
| LLM(D, GEN, 2) | 52.083 | 9.06 | 59.917 | 9.06 | 625 | 719 | 0.465 |
| Honest | 50.583 | 3.848 | 61.417 | 3.848 | 607 | 737 | 0.4516 |
| Student 10 | 48.833 | 2.98 | 63.167 | 2.98 | 586 | 758 | 0.436 |
| LLM(D, IR, 1) | 48.583 | 10.211 | 63.417 | 10.211 | 583 | 761 | 0.4338 |
| LLM(A, A1, 1) | 48 | 4.69 | 64 | 4.69 | 576 | 768 | 0.4286 |
| LLM(G, A2, 1) | 47.25 | 3.864 | 64.75 | 3.864 | 567 | 777 | 0.4219 |
| LLM(A, CR, 1) | 43.833 | 4.609 | 68.167 | 4.609 | 526 | 818 | 0.3914 |
| LLM(A, A1, 2) | 43.75 | 2.05 | 68.25 | 2.05 | 525 | 819 | 0.3906 |
| Student 11 | 42.083 | 5.664 | 69.917 | 5.664 | 505 | 839 | 0.3757 |
| LLM(A, IR, 1) | 39.5 | 2.541 | 72.5 | 2.541 | 474 | 870 | 0.3527 |
| Naive | 36.75 | 1.712 | 75.25 | 1.712 | 441 | 903 | 0.3281 |
| Student 12 | 36.333 | 1.775 | 75.667 | 1.775 | 436 | 908 | 0.3244 |
| LLM(D, A2, 1) | 33.917 | 2.193 | 78.083 | 2.193 | 407 | 937 | 0.3028 |
| LLM(A, GEN, 1) | 30.167 | 1.749 | 81.833 | 1.749 | 362 | 982 | 0.2693 |
| LLM(D, A2, 2) | 29.833 | 2.038 | 82.167 | 2.038 | 358 | 986 | 0.2664 |
| LLM(G, A2, 2) | 27 | 2.256 | 85 | 2.256 | 324 | 1020 | 0.2411 |
| LLM(A, A2, 1) | 26.333 | 0.985 | 85.667 | 0.985 | 316 | 1028 | 0.2351 |
| LLM(O, CR, 1) | 25 | 3.411 | 87 | 3.411 | 300 | 1044 | 0.2232 |
| LLM(A, IR, 2) | 24.333 | 8.542 | 87.667 | 8.542 | 292 | 1052 | 0.2173 |
| LLM(A, A2, 2) | 24 | 1.809 | 88 | 1.809 | 288 | 1056 | 0.2143 |
| LLM(A, CR, 2) | 23.333 | 1.557 | 88.667 | 1.557 | 280 | 1064 | 0.2083 |
| LLM(D, GEN, 1) | 22.5 | 1.784 | 89.5 | 1.784 | 270 | 1074 | 0.2009 |
| LLM(D, A1, 2) | 13.333 | 1.826 | 98.667 | 1.826 | 160 | 1184 | 0.119 |
| LLM(G, CR, 1) | 9.5 | 1.087 | 102.5 | 1.087 | 114 | 1230 | 0.0848 |
| LLM(G, GEN, 1) | 9.167 | 0.937 | 102.833 | 0.937 | 110 | 1234 | 0.0818 |
| LLM(D, IR, 2) | 7.75 | 0.622 | 104.25 | 0.622 | 93 | 1251 | 0.0692 |
| LLM(G, CR, 2) | 7.25 | 1.422 | 104.75 | 1.422 | 87 | 1257 | 0.0647 |
| LLM(D, CR, 2) | 5.667 | 0.985 | 106.333 | 0.985 | 68 | 1276 | 0.0506 |
Um den Kontext zu verstehen, spielte jeder Agent 112 Matches pro Turnier, so dass der maximale mögliche Durchschnitt für Siege oder Niederlagen pro Agent 112 beträgt. Die Standardabweichung (SD) spiegelt die Variabilität über Turniere hinweg wider. Human-kodierte Agenten sind in Fettdruck dargestellt. LLM-kodierte Agenten sind durch Modell (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1) gekennzeichnet, gefolgt von einem zweibuchstabigen Prompt-Strategie-Code und einer Ziffer, die angibt, ob der Agent der erste oder zweite mit diesem Prompt ist. Quelle
In Bezug auf die oben gezeigten Ergebnisse bemerken die Autoren†:
‘LLMs generierten keinen erwarteten/wettbewerbsfähigen Code, sogar in einfacheren Varianten des APDP-Problems (trotz des Codes, der größtenteils frei von Syntaxfehlern war). Dies unterstreicht die Bedeutung von reasoning-getriebenen Code-Bewertungsbenchmarks, die über Auto-Vervollständigung hinausgehen und neue Schwächen von LLMs identifizieren.’
‘Unsere Ergebnisse zeigen eine klare Überlegenheit von human-kodierten Agenten: (i) Die Top-5-Plätze werden konstant von Studenten-Agents gehalten, und (ii) die Mehrheit der LLM-Agents (33 von 40) wird von sehr einfachen Baseline-Agents besiegt (wie dem erwarteten Kosten-Festpreis).
‘Wichtig ist, dass wir den Studenten-Code nicht debuggt haben (während wir den LLM-Code gründlich getestet und debuggt haben, sowohl in Selbstspiel- als auch in Turniersituationen). Jedes Mal, wenn ein Studenten-Agent abstürzte, gaben wir automatisch den Sieg an den LLM. Eine große Anzahl dieser Abstürze wäre leicht zu beheben (z. B. Agenten, die Zeitüberschreitungen hatten), so dass die Studenten-Agents möglicherweise höher einstufen könnten.’
Als weiteres Experiment wurde GPT-5 Thinking aufgefordert, den Code des besten human-kodierten Agenten, Student 1, zu verbessern; aber der nun LLM-modifizierte Agent fiel auf den zehnten Platz zurück, nun der schlechteste aller human-kodierten Ergebnisse. Anstatt die Lösung zu verbessern, verschlechterten die LLMs sie um fast 20%.
Die Autoren schlussfolgern:
‘[Unsere] Ergebnisse heben wichtige Grenzen der LLM-Code-Generierung hervor, insbesondere ihre begrenzten Fähigkeiten zur Planung und zum Denken bei der Code-Generierung. Moderne LLMs können syntax-fehlerfreien Code liefern, der läuft, aber das ist nicht der Benchmark, den wir verwenden sollten, um den Fortschritt hin zu fortgeschrittener allgemeiner KI zu messen.’
Schlussfolgerung
Die Autoren selbst bemerken gegen Ende des Papiers, dass Vibe-Coding Menschen aller technischen Hintergründe befähigt hat und beschreiben die Praxis in einem positiven Licht, als eine ausgleichende Kraft. Sie implizieren jedoch auch, dass Vibe-Coding erst kürzlich aufgetaucht ist und seine Grenzen noch nicht bekannt sind und möglicherweise höher sind, als man realistisch erwarten kann.
Sie schließen ihr Angebot mit einem Aufruf zu einem Zielwechsel ab: ‘von Code, der compiliert, zu Code, der konkurriert‘.
Eine Frage, die der interessierte Leser dieses neuen Papiers haben könnte, ist, ob die Autoren nach oben oder unten schlagen, da die agente Aufgabe in Frage wesentlich komplexer und involvierter ist als das Ausstoßen von PowerShell-Skripten und anderen Formen von geringer Funktionalität und Korrekturen, für die Vibe-Coding gut geeignet ist.
* Bitte beachten Sie, dass das Papier kontinuierlich auf ‘DeepThink R1′ verweist, was nicht existiert, und nur eine Handvoll von Referenzen im Internet aufweist (vermutlich von anderen Autoren, die ‘DeepSeek R1’ falsch geschrieben haben). Wenn dies mein Fehler ist, bitte kontaktieren Sie mich über meine Profildaten, und ich werde es korrigieren.
† Autoren-Betonung, nicht meine.
Erstveröffentlicht am Mittwoch, den 26. November 2025. Geändert am 17:35 Uhr (östliche Zeit) für die Formatierung.












