Connect with us

Andersons Blickwinkel

Humaner Code aus 2020 schlug vibe-codierte Agenten in Agentic-Tests

mm
AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT und andere vibe-codierte Tools wurden in fast 40.000 Matches getestet – und verloren gegen Code, der von Studenten vor der Erfindung von Large Language Models geschrieben wurde.

 

In einer neuen Studie aus dem Vereinigten Königreich setzten Forscher human-codierte Agenten gegen vibe-codierte Agenten ein, die mit den neuesten Large Language Models (LLMs) wie ChatGPT-5 und Claude entwickelt wurden, und fanden heraus, dass die ohne die Hilfe von KI erstellten Agenten die KI-facilitierten Versionen sehr leicht schlugen.

Beide Agentensätze wurden von verschiedenen Generationen von Studenten des Artificial Intelligence Laboratory am Schweizerischen Bundesinstitut für Technologie in Lausanne erstellt. Die nicht-KI-Agenten wurden im Rahmen von Kursarbeiten im Jahr 2020 entwickelt, zwei Jahre vor der Einführung von ChatGPT und dem Beginn der LLM-Revolution, während die neuen Agenten von aktuellen Studenten mit den neuesten und besten verfügbaren LLMs erstellt wurden.

Selbst bei einem manipulierten Spiel konnten die vibe-codierte Lösungen nicht gewinnen, und die Top-5-Plätze wurden konstant von “rohen” Agenten gehalten, während die Mehrheit der LLM-Agenten (33 von 40) mühelos von “sehr einfachen” Basisagenten in 38.304 Herausforderungen in einem Turnier über eine breite Anzahl von Variablen und Umständen besiegt wurden.

Das Papier besagt:

‘Unsere Arbeit zeigt, dass zwar state-of-the-art-LLMs Code generieren können, der läuft (d. h. frei von Syntaxfehlern), die generierte Lösung jedoch nicht wettbewerbsfähig zu human-designten Lösungen in Dimensionen wie strategische Planung, Optimierung oder Multi-Agenten-Wettbewerb ist.

‘Somit bringt diese Arbeit diese neue Grenze in der Codegenerierung in den Vordergrund und zielt darauf ab, die Entwicklung von Benchmarks, Datenbanken und Open-Source-Baselines zu erleichtern, die reasoning-getriebene Code-Synthese betonen.’

Die Herausforderung bestand darin, kreativ an Auktionen teilzunehmen, über verschiedene Strategien hinweg, und die Logistik der Lieferung der gewonnenen Artikel an die Gewinner zu organisieren.

Die Autoren bemerken, dass den LLMs eine Reihe von Vorteilen eingeräumt wurden, wie z. B. die Intervention in ihren Code, um ihre Leistung zu verbessern – ein Vorteil, der dem Code aus dem Jahr 2020 nicht zugestanden wurde. Trotzdem konnten die LLMs, selbst wenn ihnen korrigierter Code zur Verfügung gestellt wurde, der ihre Ergebnisse definitiv verbessert hätte, diesen nicht akzeptieren oder nutzen:

‘[In] unserem Benchmark kann das LLM, selbst wenn wir eine gute Lösung im Kontext vorlegen, diese nicht nutzen.

‘Dieses Ergebnis wirft auch interessante Fragen über die Grenzen des in-context-Lernens und des retrieval-augmented Problem-Solvings in komplexen Szenarien auf.’

Die in dem Test verwendeten LLMs waren GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1 und DeepSeek R1*.

Das neue Papier trägt den Titel Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning und stammt von einem Autor an der University of Southampton und einem anderen an der University of Oxford und dem Alan Turing Institute. Der Benchmark wird, so die Autoren, kurzfristig veröffentlicht.

Methode

Die Autoren bemerken, dass traditionelle Tests in diesem Bereich sich auf Herausforderungen mit klar definierten binären Lösungen (korrekt oder nicht korrekt) konzentrieren, die durch Unit-Tests verifiziert werden. Sie argumentieren, dass dies nicht der ideale Weg ist, um die Grenzen der LLM-gestützten Codegenerierung zu erforschen, und stattdessen eine komplexere Herausforderungsszenario entwickelten, mit mehreren internen Benchmarks und Meilensteinen, in dem der Sieg möglich ist, aber weit von einfach entfernt:

Vergleich von Standard-, unit-test-basierten Ansätzen (oben) und dem von den Autoren entwickelten offeneren Herausforderungsszenario (in Blau, unten). Quelle  [ https://arxiv.org/pdf/2511.20613 ]

Vergleich von Standard-, unit-test-basierten Ansätzen (oben) und dem von den Autoren entwickelten offeneren Herausforderungsszenario (in Blau, unten). Quelle

Das Auction, Pickup and Delivery Problem (APDP) wurde für die Studie der Autoren verwendet, teilweise weil eine Korpus von 2020-Studentenarbeit von der Schweizer Universität verfügbar war; Arbeit, die darauf abzielte, automatisierte Agenten für die APDP-Aufgabe zu erstellen, bevor es möglich war, die Entwicklung durch KI zu unterstützen. Es war daher relativ einfach, moderne Studenten mit dem gleichen Auftrag zu betrauen, aber ihnen aktuelle Tools zur Verfügung zu stellen.

Die Autoren suchten, populäre Testframeworks wie HumanEval, BigCodeBench und WebDev Arena (unter vielen anderen) zu vermeiden, da diese Klasse von Testverfahren tendenziell unter Datenkontamination leidet (d. h., Fälle, in denen das System möglicherweise auf Testdaten trainiert wurde, anstatt einen Split zu respektieren).

Das APDP ist ein zweistufiges Logistikproblem, das auf Reverse-Auktionen und Vehicle-Routing basiert. In der ersten Phase konkurrieren die Agenten, um Lieferaufträge zu gewinnen, indem sie Gebote für die Bezahlung abgeben, die sie für die Erfüllung jedes Auftrags erhalten sollten. Ein zu hohes Gebot bedeutet den Verlust des Auftrags; ein zu niedriges Gebot kann bedeuten, Geld zu verlieren.

In der zweiten Phase muss jeder Agent einen effizienten Plan erstellen, um nur die Aufträge zu erfüllen, die er gewonnen hat, indem er sie Fahrzeugen mit unterschiedlichen Kapazitäten und Kosten zuweist, unter Zeit- und Ressourcenbeschränkungen:

Im APDP bieten Unternehmen in Reverse-Auktionen für Lieferaufträge, dann optimieren sie Fahrzeugrouten, um nur die Aufträge zu erfüllen, die sie gewonnen haben, mit dem Ziel, den Gewinn zu maximieren.

Im APDP bieten Unternehmen in Reverse-Auktionen für Lieferaufträge, dann optimieren sie Fahrzeugrouten, um nur die Aufträge zu erfüllen, die sie gewonnen haben, mit dem Ziel, den Gewinn zu maximieren.

Das Ziel ist nicht nur, die Aufträge zu erfüllen, sondern den Gesamtgewinn zu maximieren, indem man vorhersieht, welche Auftragsbündel am besten zusammenpassen, und die Strategien der Konkurrenten vorhersieht, die alle versuchen, das gleiche zu tun.

Das APDP-Benchmark erhöht die Schwierigkeit von Codegenerierungsaufgaben, indem es strategische Planung über eine Folge von voneinander abhängigen Auktionen einführt, wobei jedes Gebot die Landschaft zukünftiger Entscheidungen neu gestaltet; und erfordert daher, dass die Agenten nicht nur über unmittelbare Kosten nachdenken, sondern über Positionierung, Timing und langfristige Konsequenzen.

Das Kernlieferproblem ist NP-hard, d. h., kein Algorithmus kann zuverlässig die beste Lösung in vernünftiger Zeit finden, wenn die Anzahl der Aufträge wächst. Dies macht es unmöglich, eine brute-force-Lösung zu verwenden, und zwingt die Agenten, Genauigkeit gegen Geschwindigkeit zu tauschen.

Das Rennen ist eröffnet

Die Bewertung der Autoren verglich 40 LLM-codierte Agenten mit 17 human-codierten Agenten in einer Reihe von Kopf-an-Kopf-Turnieren. Jedes der 12 Turniere verwendete eine andere Kombination von vier Straßennetz-Topologien und bestand aus all-play-all-Paarungen, wobei die Agenten jeden anderen Gegner zweimal trafen: einmal als Kontrolle über jedes von zwei Unternehmen, mit unterschiedlichen Fahrzeugspezifikationen.

Diese Einrichtung ergab 3.192 Matches pro Turnier, insgesamt 38.304 Matches. In jedem Match wurden 50 Lieferaufträge versteigert, definiert durch ihre Abhol- und Lieferpunkte und Gewicht, und zufällig über Straßenlayouts verteilt, die auf der Schweiz, Frankreich, Großbritannien und den Niederlanden basieren:

Vereinfachte Straßennetze, die im Turnier verwendet wurden: Großbritannien (oben links), Schweiz (oben rechts), die Niederlande (unten links) und Frankreich (unten rechts). Blaue und rote Quadrate markieren Abhol- und Lieferaufträge. Bunte Dreiecke zeigen die aktuellen Positionen der Fahrzeuge der Agenten.

Vereinfachte Straßennetze, die im Turnier verwendet wurden: Großbritannien (oben links), Schweiz (oben rechts), die Niederlande (unten links) und Frankreich (unten rechts). Blaue und rote Quadrate markieren Abhol- und Lieferaufträge. Bunte Dreiecke zeigen die aktuellen Positionen der Fahrzeuge der Agenten.

Studentenagenten wurden aus einem Turnier von 2020 ausgewählt. Acht kamen von den Top-Performern in einem Einzel-Eliminationsfinale, und vier weitere wurden für ihre starke Leistung gegen die Basisagenten in Kopf-an-Kopf-Matches ausgewählt.

Die Basisagenten folgten festen Heuristiken. Naive berechnete die Gesamtstrecke und bot entsprechend, unter Verwendung nur eines Fahrzeugs und unter Ignorierung von Batching; ExpCostFixedBid simulierte 10 zufällige Aufträge und bot den Durchschnittskosten; Honest berechnete die tatsächlichen Grenzkosten der Einfügung des Auftrags in den Zeitplan; ModelOpponent tat dasselbe, aber fügte eine Schätzung der Kosten des Gegners hinzu, indem er das Maximum bot; und RiskSeeking mischte eine time-decaying Priorität mit Live-Kosten-Schätzung und Gegner-Modellierung – wiederum das Höhere der beiden bietend.

Die Bewertung umfasste 40 LLM-codierte Agenten, die mit den (vorher genannten) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro und DeepSeek R1 erstellt wurden. Jedes Modell wurde mit fünf unterschiedlichen Strategien angestoßen, zweimal pro Modell.

Zwei Strategien verwendeten statische Prompts, die von verschiedenen Autoren geschrieben wurden, während eine dritte den Modell aufforderte, sich selbst zu reflektieren und seine eigene Ausgabe zu überarbeiten; eine weitere beinhaltete Kritik und Überarbeitung durch ein separates LLM. Die finale Strategie verwendete GPT-4, um einen neuen Prompt zu synthetisieren, indem sie alle vier vorherigen Ansätze überprüfte.

Der Basis-Prompt spiegelte die ursprüngliche Studentenaufgabe wider, beschrieb die Lieferumgebung und wies das Modell an, zu bieten und zu planen, um den Gewinn zu maximieren, ohne auf komplexe Methoden zurückzugreifen.

Alle LLM-Agenten wurden in Selbstspiel- und Turnierszenarien getestet, bis alle beobachtbaren Fehler behoben waren. Die Fehlerbehebung wurde autonom von den LLMs selbst durchgeführt, die mit Fehlerinformationen angestoßen wurden.

Häufige LLM-Fehler, die im Papier erwähnt werden, umfassten Verstöße gegen Timeout-Limits, das Versäumnis, zugewiesene Aufträge abzuholen oder zu liefern, und Verstöße gegen Fahrzeugkapazitätsbeschränkungen – Fehler, die oft durch die Missachtung expliziter Anweisungen oder durch fehlerhafte Neuplanung entstanden:

‘Ein weiteres häufiges Problem, das wir festgestellt haben (hauptsächlich mit Gemini, Claude und DeepSeek, und nicht so sehr mit GPT), ist, dass das LLM häufig nicht in der Lage war, einen Fehler zu beheben.

‘Zum Beispiel würde ein Agent häufig timeouten, trotz mehrerer (z. B. 5 – 15) Zyklen, in denen das LLM mit dem Fehler angestoßen und die aktualisierte Version des Codes erhalten wurde.

‘Die einzige Lösung, die wir für solche Situationen (in denen das LLM wiederholt nicht in der Lage ist, den gleichen Fehler zu beheben) gefunden haben, ist, von vorne zu beginnen. Insgesamt haben wir die Notwendigkeit erheblicher manueller Anstrengung festgestellt, um fehlerfreien Code zu erzielen. Wir mussten wesentlich mehr Agenten generieren, um die 40 fehlerfreien zu erhalten, die wir ausgewertet haben.’

Die Ergebnisse, die unten dargestellt sind, fassen die Ergebnisse von 12 Doppel-Rundenturnieren zusammen, die vier Straßennetz-Topologien und drei Turniere pro Topologie umfassen, was zu etwa 40.000 Matches führt:

Agent Avg #Wins / Tour SD #Wins / Tour Avg #Losses / Tour SD #Losses / Tour Total Wins Total Losses Winrate
Student 1 108.167 1.193 3.833 1.193 1298 46 0.9658
Student 2 104.917 2.539 7.083 2.539 1259 85 0.9368
Student 3 103.917 2.466 8.083 2.466 1247 97 0.9278
Student 4 103.25 1.815 8.75 1.815 1239 105 0.9219
Student 5 96.5 2.908 15.5 2.908 1158 186 0.8616
LLM(O, IR, 1) 95.417 2.314 16.583 2.314 1145 199 0.8519
LLM(O, A2, 1) 94.583 2.314 17.417 2.314 1135 209 0.8445
Student 6 93.167 1.899 18.833 1.899 1118 226 0.8318
Student 7 93.167 3.563 18.833 3.563 1118 226 0.8318
LLM(O, A1, 1) 86.083 3.029 25.917 3.029 1033 311 0.7686
LLM(O, GEN, 2) 84.083 6.947 27.917 6.947 1009 335 0.7507
LLM(O, CR, 2) 83.5 4.442 28.5 4.442 1002 342 0.7455
Student 8 83.417 4.122 28.583 4.122 1001 343 0.7448
RiskSeeking 82.417 3.343 29.583 3.343 989 355 0.7359
LLM(O, GEN, 1) 80.667 4.355 31.25 4.372 968 375 0.7208
ModelOpponent 80.583 3.26 31.417 3.26 967 377 0.7195
LLM(D, A1, 1) 79.417 3.965 32.583 3.965 953 391 0.7091
ExpCostFixedBid 77.167 4.951 34.833 4.951 926 418 0.689
LLM(O, IR, 2) 73.917 3.502 38 3.618 887 456 0.6605
LLM(O, A1, 2) 72.417 2.193 39.583 2.193 869 475 0.6466
LLM(G, A1, 2) 68.5 3.555 43.5 3.555 822 522 0.6116
LLM(A, GEN, 2) 67.917 2.968 44.083 2.968 815 529 0.6064
LLM(G, IR, 2) 65.917 2.314 46.083 2.314 791 553 0.5885
Student 9 64.167 11.044 47.833 11.044 770 574 0.5729
LLM(G, A1, 1) 64 4.243 47.917 4.316 768 575 0.5719
LLM(G, IR, 1) 60.333 3.725 51.667 3.725 724 620 0.5387
LLM(O, A2, 2) 59.333 4.499 52.667 4.499 712 632 0.5298
LLM(D, CR, 1) 55.083 6.694 56.833 6.59 661 682 0.4922
LLM(G, GEN, 2) 53.167 3.664 58.833 3.664 638 706 0.4747
LLM(D, GEN, 2) 52.083 9.06 59.917 9.06 625 719 0.465
Honest 50.583 3.848 61.417 3.848 607 737 0.4516
Student 10 48.833 2.98 63.167 2.98 586 758 0.436
LLM(D, IR, 1) 48.583 10.211 63.417 10.211 583 761 0.4338
LLM(A, A1, 1) 48 4.69 64 4.69 576 768 0.4286
LLM(G, A2, 1) 47.25 3.864 64.75 3.864 567 777 0.4219
LLM(A, CR, 1) 43.833 4.609 68.167 4.609 526 818 0.3914
LLM(A, A1, 2) 43.75 2.05 68.25 2.05 525 819 0.3906
Student 11 42.083 5.664 69.917 5.664 505 839 0.3757
LLM(A, IR, 1) 39.5 2.541 72.5 2.541 474 870 0.3527
Naive 36.75 1.712 75.25 1.712 441 903 0.3281
Student 12 36.333 1.775 75.667 1.775 436 908 0.3244
LLM(D, A2, 1) 33.917 2.193 78.083 2.193 407 937 0.3028
LLM(A, GEN, 1) 30.167 1.749 81.833 1.749 362 982 0.2693
LLM(D, A2, 2) 29.833 2.038 82.167 2.038 358 986 0.2664
LLM(G, A2, 2) 27 2.256 85 2.256 324 1020 0.2411
LLM(A, A2, 1) 26.333 0.985 85.667 0.985 316 1028 0.2351
LLM(O, CR, 1) 25 3.411 87 3.411 300 1044 0.2232
LLM(A, IR, 2) 24.333 8.542 87.667 8.542 292 1052 0.2173
LLM(A, A2, 2) 24 1.809 88 1.809 288 1056 0.2143
LLM(A, CR, 2) 23.333 1.557 88.667 1.557 280 1064 0.2083
LLM(D, GEN, 1) 22.5 1.784 89.5 1.784 270 1074 0.2009
LLM(D, A1, 2) 13.333 1.826 98.667 1.826 160 1184 0.119
LLM(G, CR, 1) 9.5 1.087 102.5 1.087 114 1230 0.0848
LLM(G, GEN, 1) 9.167 0.937 102.833 0.937 110 1234 0.0818
LLM(D, IR, 2) 7.75 0.622 104.25 0.622 93 1251 0.0692
LLM(G, CR, 2) 7.25 1.422 104.75 1.422 87 1257 0.0647
LLM(D, CR, 2) 5.667 0.985 106.333 0.985 68 1276 0.0506

Im Kontext spielte jeder Agent 112 Matches pro Turnier, so dass die maximale mögliche Durchschnittswert für Siege oder Niederlagen pro Agent 112 beträgt. Die Standardabweichung (SD) spiegelt die Variabilität über die Turniere hinweg wider. Human-codierte Agenten sind fett gedruckt. LLM-codierte Agenten sind mit dem Modell (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1) gekennzeichnet, gefolgt von einem zweibuchstabigen Prompt-Strategie-Code und einer Ziffer, die angibt, ob der Agent der erste oder zweite mit diesem Prompt ist. Quelle

In Bezug auf die oben gezeigten Ergebnisse bemerken die Autoren:

‘LLMs generierten nicht den erwarteten/wettbewerbsfähigen Code, sogar in einfacheren Varianten des APDP-Problems (trotzdem der Code größtenteils frei von Syntaxfehlern war). Dies unterstreicht die Wichtigkeit von reasoning-getriebenen Code-Evaluations-Benchmarks, die über Auto-Vervollständigung hinausgehen und neue Schwächen von LLMs identifizieren.’

‘Unsere Ergebnisse zeigen eine klare Überlegenheit der human-codierten Agenten: (i) Die Top-5-Plätze werden konstant von Studentenagenten gehalten, und (ii) die Mehrheit der LLM-Agenten (33 von 40) wird von sehr einfachen Basisagenten besiegt (wie dem erwarteten Kosten-Festpreis).

‘Wichtig ist, dass wir den Studenten-Code nicht debuggt haben (während wir den LLM-Code sorgfältig getestet und debuggt haben, sowohl in Selbstspiel als auch in Turnier-[Einstellungen]). Jedes Mal, wenn ein Studentenagent abstürzte, gaben wir dem LLM automatisch den Sieg. Eine große Anzahl dieser Abstürze wäre leicht zu beheben (z. B. Agenten, die timeouten), so dass die Studentenagenten potenziell höher einstufen könnten.’

Als weiteres Experiment wurde GPT-5 Thinking angestoßen, den Code des top-performenden humanen Agenten, Student 1, zu verbessern; jedoch fiel der jetzt LLM-modifizierte Agent auf den zehnten Platz zurück, der schlechteste aller humanen Ergebnisse. Anstatt die Lösung zu verbessern, verschlechterten die Änderungen des LLMs sie um fast 20%.

Die Autoren schließen:

‘[Unsere] Ergebnisse heben wichtige Grenzen der LLM-Codegenerierung hervor, insbesondere ihre begrenzten Fähigkeiten zur Planung und zum Reasoning bei der Codegenerierung. Moderne LLMs sind in der Lage, syntaxfehlerfreien Code zu liefern, der läuft, aber das ist nicht der Benchmark, den wir verwenden sollten, um den Fortschritt hin zu fortschrittlicher allgemeiner KI zu messen.’

Schlussfolgerung

Die Autoren selbst bemerken gegen Ende des Papiers, dass Vibe-Coding Menschen aller technischen Hintergründe ermöglicht hat und diese Praxis in einem positiven Licht darstellen, als eine ausgleichende Kraft. Sie implizieren jedoch auch, dass Vibe-Coding erst kürzlich angekommen ist, seine Grenzen nicht bekannt sind und möglicherweise höher angenommen werden, als realistisch erwartet werden kann.

Sie schließen ihr Angebot mit einem Aufruf zu einer Zielverschiebung ‘von Code, der compiliert, zu Code, der wettbewerbsfähig ist‘ ab.

Eine Frage, die der interessierte Leser dieses interessanten neuen Papiers haben könnte, ist, ob die Autoren nach oben oder unten schlagen, da die agente Aufgabe in Frage wesentlich komplexer und involvierter ist als das Erstellen von PowerShell-Skripten und anderen Formen von geringer Funktionalität und Korrekturen, für die Vibe-Coding gut geeignet ist.

 

* Bitte beachten Sie, dass das Papier kontinuierlich auf ‘DeepThink R1′ verweist, das offensichtlich nicht existiert und nur eine Handvoll von Referenzen im Internet aufweist (vermutlich von anderen Autoren, die ‘DeepSeek R1’ falsch geschrieben haben). Wenn dies mein Fehler ist, kontaktieren Sie mich bitte über meine Profildaten, und ich werde es ändern.

Betonung der Autoren, nicht meine.

Erstveröffentlicht am Mittwoch, den 26. November 2025. Geändert am 17:35 Uhr (MEZ) für die Formatierung.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.