Andersons Blickwinkel

Humaner Code aus 2020 schlug vibe-codierte Agenten in Agentic-Tests

Published November 26, 2025

Updated April 25, 2026

Martin Anderson

AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT und andere vibe-codierte Tools wurden in fast 40.000 Matches getestet – und verloren gegen Code, der von Studenten vor der Erfindung von Large Language Models geschrieben wurde.

In einer neuen Studie aus dem Vereinigten Königreich setzten Forscher human-codierte Agenten gegen vibe-codierte Agenten ein, die mit den neuesten Large Language Models (LLMs) wie ChatGPT-5 und Claude entwickelt wurden, und fanden heraus, dass die ohne die Hilfe von KI erstellten Agenten die KI-facilitierten Versionen sehr leicht schlugen.

Beide Agentensätze wurden von verschiedenen Generationen von Studenten des Artificial Intelligence Laboratory am Schweizerischen Bundesinstitut für Technologie in Lausanne erstellt. Die nicht-KI-Agenten wurden im Rahmen von Kursarbeiten im Jahr 2020 entwickelt, zwei Jahre vor der Einführung von ChatGPT und dem Beginn der LLM-Revolution, während die neuen Agenten von aktuellen Studenten mit den neuesten und besten verfügbaren LLMs erstellt wurden.

Selbst bei einem manipulierten Spiel konnten die vibe-codierte Lösungen nicht gewinnen, und die Top-5-Plätze wurden konstant von “rohen” Agenten gehalten, während die Mehrheit der LLM-Agenten (33 von 40) mühelos von “sehr einfachen” Basisagenten in 38.304 Herausforderungen in einem Turnier über eine breite Anzahl von Variablen und Umständen besiegt wurden.

Das Papier besagt:

‘Unsere Arbeit zeigt, dass zwar state-of-the-art-LLMs Code generieren können, der läuft (d. h. frei von Syntaxfehlern), die generierte Lösung jedoch nicht wettbewerbsfähig zu human-designten Lösungen in Dimensionen wie strategische Planung, Optimierung oder Multi-Agenten-Wettbewerb ist.

‘Somit bringt diese Arbeit diese neue Grenze in der Codegenerierung in den Vordergrund und zielt darauf ab, die Entwicklung von Benchmarks, Datenbanken und Open-Source-Baselines zu erleichtern, die reasoning-getriebene Code-Synthese betonen.’

Die Herausforderung bestand darin, kreativ an Auktionen teilzunehmen, über verschiedene Strategien hinweg, und die Logistik der Lieferung der gewonnenen Artikel an die Gewinner zu organisieren.

Die Autoren bemerken, dass den LLMs eine Reihe von Vorteilen eingeräumt wurden, wie z. B. die Intervention in ihren Code, um ihre Leistung zu verbessern – ein Vorteil, der dem Code aus dem Jahr 2020 nicht zugestanden wurde. Trotzdem konnten die LLMs, selbst wenn ihnen korrigierter Code zur Verfügung gestellt wurde, der ihre Ergebnisse definitiv verbessert hätte, diesen nicht akzeptieren oder nutzen:

‘[In] unserem Benchmark kann das LLM, selbst wenn wir eine gute Lösung im Kontext vorlegen, diese nicht nutzen.

‘Dieses Ergebnis wirft auch interessante Fragen über die Grenzen des in-context-Lernens und des retrieval-augmented Problem-Solvings in komplexen Szenarien auf.’

Die in dem Test verwendeten LLMs waren GPT-5 Thinking, Gemini 2.5 Pro, Claude Opus 4.1 und DeepSeek R1*.

Das neue Papier trägt den Titel Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning und stammt von einem Autor an der University of Southampton und einem anderen an der University of Oxford und dem Alan Turing Institute. Der Benchmark wird, so die Autoren, kurzfristig veröffentlicht.

Methode

Die Autoren bemerken, dass traditionelle Tests in diesem Bereich sich auf Herausforderungen mit klar definierten binären Lösungen (korrekt oder nicht korrekt) konzentrieren, die durch Unit-Tests verifiziert werden. Sie argumentieren, dass dies nicht der ideale Weg ist, um die Grenzen der LLM-gestützten Codegenerierung zu erforschen, und stattdessen eine komplexere Herausforderungsszenario entwickelten, mit mehreren internen Benchmarks und Meilensteinen, in dem der Sieg möglich ist, aber weit von einfach entfernt:

Vergleich von Standard-, unit-test-basierten Ansätzen (oben) und dem von den Autoren entwickelten offeneren Herausforderungsszenario (in Blau, unten). Quelle

Das Auction, Pickup and Delivery Problem (APDP) wurde für die Studie der Autoren verwendet, teilweise weil eine Korpus von 2020-Studentenarbeit von der Schweizer Universität verfügbar war; Arbeit, die darauf abzielte, automatisierte Agenten für die APDP-Aufgabe zu erstellen, bevor es möglich war, die Entwicklung durch KI zu unterstützen. Es war daher relativ einfach, moderne Studenten mit dem gleichen Auftrag zu betrauen, aber ihnen aktuelle Tools zur Verfügung zu stellen.

Die Autoren suchten, populäre Testframeworks wie HumanEval, BigCodeBench und WebDev Arena (unter vielen anderen) zu vermeiden, da diese Klasse von Testverfahren tendenziell unter Datenkontamination leidet (d. h., Fälle, in denen das System möglicherweise auf Testdaten trainiert wurde, anstatt einen Split zu respektieren).

Das APDP ist ein zweistufiges Logistikproblem, das auf Reverse-Auktionen und Vehicle-Routing basiert. In der ersten Phase konkurrieren die Agenten, um Lieferaufträge zu gewinnen, indem sie Gebote für die Bezahlung abgeben, die sie für die Erfüllung jedes Auftrags erhalten sollten. Ein zu hohes Gebot bedeutet den Verlust des Auftrags; ein zu niedriges Gebot kann bedeuten, Geld zu verlieren.

In der zweiten Phase muss jeder Agent einen effizienten Plan erstellen, um nur die Aufträge zu erfüllen, die er gewonnen hat, indem er sie Fahrzeugen mit unterschiedlichen Kapazitäten und Kosten zuweist, unter Zeit- und Ressourcenbeschränkungen:

Im APDP bieten Unternehmen in Reverse-Auktionen für Lieferaufträge, dann optimieren sie Fahrzeugrouten, um nur die Aufträge zu erfüllen, die sie gewonnen haben, mit dem Ziel, den Gewinn zu maximieren.

Das Ziel ist nicht nur, die Aufträge zu erfüllen, sondern den Gesamtgewinn zu maximieren, indem man vorhersieht, welche Auftragsbündel am besten zusammenpassen, und die Strategien der Konkurrenten vorhersieht, die alle versuchen, das gleiche zu tun.

Das APDP-Benchmark erhöht die Schwierigkeit von Codegenerierungsaufgaben, indem es strategische Planung über eine Folge von voneinander abhängigen Auktionen einführt, wobei jedes Gebot die Landschaft zukünftiger Entscheidungen neu gestaltet; und erfordert daher, dass die Agenten nicht nur über unmittelbare Kosten nachdenken, sondern über Positionierung, Timing und langfristige Konsequenzen.

Das Kernlieferproblem ist NP-hard, d. h., kein Algorithmus kann zuverlässig die beste Lösung in vernünftiger Zeit finden, wenn die Anzahl der Aufträge wächst. Dies macht es unmöglich, eine brute-force-Lösung zu verwenden, und zwingt die Agenten, Genauigkeit gegen Geschwindigkeit zu tauschen.

Das Rennen ist eröffnet

Die Bewertung der Autoren verglich 40 LLM-codierte Agenten mit 17 human-codierten Agenten in einer Reihe von Kopf-an-Kopf-Turnieren. Jedes der 12 Turniere verwendete eine andere Kombination von vier Straßennetz-Topologien und bestand aus all-play-all-Paarungen, wobei die Agenten jeden anderen Gegner zweimal trafen: einmal als Kontrolle über jedes von zwei Unternehmen, mit unterschiedlichen Fahrzeugspezifikationen.

Diese Einrichtung ergab 3.192 Matches pro Turnier, insgesamt 38.304 Matches. In jedem Match wurden 50 Lieferaufträge versteigert, definiert durch ihre Abhol- und Lieferpunkte und Gewicht, und zufällig über Straßenlayouts verteilt, die auf der Schweiz, Frankreich, Großbritannien und den Niederlanden basieren:

Vereinfachte Straßennetze, die im Turnier verwendet wurden: Großbritannien (oben links), Schweiz (oben rechts), die Niederlande (unten links) und Frankreich (unten rechts). Blaue und rote Quadrate markieren Abhol- und Lieferaufträge. Bunte Dreiecke zeigen die aktuellen Positionen der Fahrzeuge der Agenten.

Studentenagenten wurden aus einem Turnier von 2020 ausgewählt. Acht kamen von den Top-Performern in einem Einzel-Eliminationsfinale, und vier weitere wurden für ihre starke Leistung gegen die Basisagenten in Kopf-an-Kopf-Matches ausgewählt.

Die Basisagenten folgten festen Heuristiken. Naive berechnete die Gesamtstrecke und bot entsprechend, unter Verwendung nur eines Fahrzeugs und unter Ignorierung von Batching; ExpCostFixedBid simulierte 10 zufällige Aufträge und bot den Durchschnittskosten; Honest berechnete die tatsächlichen Grenzkosten der Einfügung des Auftrags in den Zeitplan; ModelOpponent tat dasselbe, aber fügte eine Schätzung der Kosten des Gegners hinzu, indem er das Maximum bot; und RiskSeeking mischte eine time-decaying Priorität mit Live-Kosten-Schätzung und Gegner-Modellierung – wiederum das Höhere der beiden bietend.

Die Bewertung umfasste 40 LLM-codierte Agenten, die mit den (vorher genannten) GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro und DeepSeek R1 erstellt wurden. Jedes Modell wurde mit fünf unterschiedlichen Strategien angestoßen, zweimal pro Modell.

Zwei Strategien verwendeten statische Prompts, die von verschiedenen Autoren geschrieben wurden, während eine dritte den Modell aufforderte, sich selbst zu reflektieren und seine eigene Ausgabe zu überarbeiten; eine weitere beinhaltete Kritik und Überarbeitung durch ein separates LLM. Die finale Strategie verwendete GPT-4, um einen neuen Prompt zu synthetisieren, indem sie alle vier vorherigen Ansätze überprüfte.

Der Basis-Prompt spiegelte die ursprüngliche Studentenaufgabe wider, beschrieb die Lieferumgebung und wies das Modell an, zu bieten und zu planen, um den Gewinn zu maximieren, ohne auf komplexe Methoden zurückzugreifen.

Alle LLM-Agenten wurden in Selbstspiel- und Turnierszenarien getestet, bis alle beobachtbaren Fehler behoben waren. Die Fehlerbehebung wurde autonom von den LLMs selbst durchgeführt, die mit Fehlerinformationen angestoßen wurden.

Häufige LLM-Fehler, die im Papier erwähnt werden, umfassten Verstöße gegen Timeout-Limits, das Versäumnis, zugewiesene Aufträge abzuholen oder zu liefern, und Verstöße gegen Fahrzeugkapazitätsbeschränkungen – Fehler, die oft durch die Missachtung expliziter Anweisungen oder durch fehlerhafte Neuplanung entstanden:

‘Ein weiteres häufiges Problem, das wir festgestellt haben (hauptsächlich mit Gemini, Claude und DeepSeek, und nicht so sehr mit GPT), ist, dass das LLM häufig nicht in der Lage war, einen Fehler zu beheben.

‘Zum Beispiel würde ein Agent häufig timeouten, trotz mehrerer (z. B. 5 – 15) Zyklen, in denen das LLM mit dem Fehler angestoßen und die aktualisierte Version des Codes erhalten wurde.

‘Die einzige Lösung, die wir für solche Situationen (in denen das LLM wiederholt nicht in der Lage ist, den gleichen Fehler zu beheben) gefunden haben, ist, von vorne zu beginnen. Insgesamt haben wir die Notwendigkeit erheblicher manueller Anstrengung festgestellt, um fehlerfreien Code zu erzielen. Wir mussten wesentlich mehr Agenten generieren, um die 40 fehlerfreien zu erhalten, die wir ausgewertet haben.’

Die Ergebnisse, die unten dargestellt sind, fassen die Ergebnisse von 12 Doppel-Rundenturnieren zusammen, die vier Straßennetz-Topologien und drei Turniere pro Topologie umfassen, was zu etwa 40.000 Matches führt:

Agent	Avg #Wins / Tour	SD #Wins / Tour	Avg #Losses / Tour	SD #Losses / Tour	Total Wins	Total Losses	Winrate
Student 1	108.167	1.193	3.833	1.193	1298	46	0.9658
Student 2	104.917	2.539	7.083	2.539	1259	85	0.9368
Student 3	103.917	2.466	8.083	2.466	1247	97	0.9278
Student 4	103.25	1.815	8.75	1.815	1239	105	0.9219
Student 5	96.5	2.908	15.5	2.908	1158	186	0.8616
LLM(O, IR, 1)	95.417	2.314	16.583	2.314	1145	199	0.8519
LLM(O, A2, 1)	94.583	2.314	17.417	2.314	1135	209	0.8445
Student 6	93.167	1.899	18.833	1.899	1118	226	0.8318
Student 7	93.167	3.563	18.833	3.563	1118	226	0.8318
LLM(O, A1, 1)	86.083	3.029	25.917	3.029	1033	311	0.7686
LLM(O, GEN, 2)	84.083	6.947	27.917	6.947	1009	335	0.7507
LLM(O, CR, 2)	83.5	4.442	28.5	4.442	1002	342	0.7455
Student 8	83.417	4.122	28.583	4.122	1001	343	0.7448
RiskSeeking	82.417	3.343	29.583	3.343	989	355	0.7359
LLM(O, GEN, 1)	80.667	4.355	31.25	4.372	968	375	0.7208
ModelOpponent	80.583	3.26	31.417	3.26	967	377	0.7195
LLM(D, A1, 1)	79.417	3.965	32.583	3.965	953	391	0.7091
ExpCostFixedBid	77.167	4.951	34.833	4.951	926	418	0.689
LLM(O, IR, 2)	73.917	3.502	38	3.618	887	456	0.6605
LLM(O, A1, 2)	72.417	2.193	39.583	2.193	869	475	0.6466
LLM(G, A1, 2)	68.5	3.555	43.5	3.555	822	522	0.6116
LLM(A, GEN, 2)	67.917	2.968	44.083	2.968	815	529	0.6064
LLM(G, IR, 2)	65.917	2.314	46.083	2.314	791	553	0.5885
Student 9	64.167	11.044	47.833	11.044	770	574	0.5729
LLM(G, A1, 1)	64	4.243	47.917	4.316	768	575	0.5719
LLM(G, IR, 1)	60.333	3.725	51.667	3.725	724	620	0.5387
LLM(O, A2, 2)	59.333	4.499	52.667	4.499	712	632	0.5298
LLM(D, CR, 1)	55.083	6.694	56.833	6.59	661	682	0.4922
LLM(G, GEN, 2)	53.167	3.664	58.833	3.664	638	706	0.4747
LLM(D, GEN, 2)	52.083	9.06	59.917	9.06	625	719	0.465
Honest	50.583	3.848	61.417	3.848	607	737	0.4516
Student 10	48.833	2.98	63.167	2.98	586	758	0.436
LLM(D, IR, 1)	48.583	10.211	63.417	10.211	583	761	0.4338
LLM(A, A1, 1)	48	4.69	64	4.69	576	768	0.4286
LLM(G, A2, 1)	47.25	3.864	64.75	3.864	567	777	0.4219
LLM(A, CR, 1)	43.833	4.609	68.167	4.609	526	818	0.3914
LLM(A, A1, 2)	43.75	2.05	68.25	2.05	525	819	0.3906
Student 11	42.083	5.664	69.917	5.664	505	839	0.3757
LLM(A, IR, 1)	39.5	2.541	72.5	2.541	474	870	0.3527
Naive	36.75	1.712	75.25	1.712	441	903	0.3281
Student 12	36.333	1.775	75.667	1.775	436	908	0.3244
LLM(D, A2, 1)	33.917	2.193	78.083	2.193	407	937	0.3028
LLM(A, GEN, 1)	30.167	1.749	81.833	1.749	362	982	0.2693
LLM(D, A2, 2)	29.833	2.038	82.167	2.038	358	986	0.2664
LLM(G, A2, 2)	27	2.256	85	2.256	324	1020	0.2411
LLM(A, A2, 1)	26.333	0.985	85.667	0.985	316	1028	0.2351
LLM(O, CR, 1)	25	3.411	87	3.411	300	1044	0.2232
LLM(A, IR, 2)	24.333	8.542	87.667	8.542	292	1052	0.2173
LLM(A, A2, 2)	24	1.809	88	1.809	288	1056	0.2143
LLM(A, CR, 2)	23.333	1.557	88.667	1.557	280	1064	0.2083
LLM(D, GEN, 1)	22.5	1.784	89.5	1.784	270	1074	0.2009
LLM(D, A1, 2)	13.333	1.826	98.667	1.826	160	1184	0.119
LLM(G, CR, 1)	9.5	1.087	102.5	1.087	114	1230	0.0848
LLM(G, GEN, 1)	9.167	0.937	102.833	0.937	110	1234	0.0818
LLM(D, IR, 2)	7.75	0.622	104.25	0.622	93	1251	0.0692
LLM(G, CR, 2)	7.25	1.422	104.75	1.422	87	1257	0.0647
LLM(D, CR, 2)	5.667	0.985	106.333	0.985	68	1276	0.0506

Im Kontext spielte jeder Agent 112 Matches pro Turnier, so dass die maximale mögliche Durchschnittswert für Siege oder Niederlagen pro Agent 112 beträgt. Die Standardabweichung (SD) spiegelt die Variabilität über die Turniere hinweg wider. Human-codierte Agenten sind fett gedruckt. LLM-codierte Agenten sind mit dem Modell (O = GPT-5 Thinking, G = Gemini 2.5 Pro, A = Claude Opus 4.1, D = DeepSeek R1) gekennzeichnet, gefolgt von einem zweibuchstabigen Prompt-Strategie-Code und einer Ziffer, die angibt, ob der Agent der erste oder zweite mit diesem Prompt ist. Quelle

In Bezug auf die oben gezeigten Ergebnisse bemerken die Autoren^†:

‘LLMs generierten nicht den erwarteten/wettbewerbsfähigen Code, sogar in einfacheren Varianten des APDP-Problems (trotzdem der Code größtenteils frei von Syntaxfehlern war). Dies unterstreicht die Wichtigkeit von reasoning-getriebenen Code-Evaluations-Benchmarks, die über Auto-Vervollständigung hinausgehen und neue Schwächen von LLMs identifizieren.’

‘Unsere Ergebnisse zeigen eine klare Überlegenheit der human-codierten Agenten: (i) Die Top-5-Plätze werden konstant von Studentenagenten gehalten, und (ii) die Mehrheit der LLM-Agenten (33 von 40) wird von sehr einfachen Basisagenten besiegt (wie dem erwarteten Kosten-Festpreis).

‘Wichtig ist, dass wir den Studenten-Code nicht debuggt haben (während wir den LLM-Code sorgfältig getestet und debuggt haben, sowohl in Selbstspiel als auch in Turnier-[Einstellungen]). Jedes Mal, wenn ein Studentenagent abstürzte, gaben wir dem LLM automatisch den Sieg. Eine große Anzahl dieser Abstürze wäre leicht zu beheben (z. B. Agenten, die timeouten), so dass die Studentenagenten potenziell höher einstufen könnten.’

Als weiteres Experiment wurde GPT-5 Thinking angestoßen, den Code des top-performenden humanen Agenten, Student 1, zu verbessern; jedoch fiel der jetzt LLM-modifizierte Agent auf den zehnten Platz zurück, der schlechteste aller humanen Ergebnisse. Anstatt die Lösung zu verbessern, verschlechterten die Änderungen des LLMs sie um fast 20%.

Die Autoren schließen:

‘[Unsere] Ergebnisse heben wichtige Grenzen der LLM-Codegenerierung hervor, insbesondere ihre begrenzten Fähigkeiten zur Planung und zum Reasoning bei der Codegenerierung. Moderne LLMs sind in der Lage, syntaxfehlerfreien Code zu liefern, der läuft, aber das ist nicht der Benchmark, den wir verwenden sollten, um den Fortschritt hin zu fortschrittlicher allgemeiner KI zu messen.’

Schlussfolgerung

Die Autoren selbst bemerken gegen Ende des Papiers, dass Vibe-Coding Menschen aller technischen Hintergründe ermöglicht hat und diese Praxis in einem positiven Licht darstellen, als eine ausgleichende Kraft. Sie implizieren jedoch auch, dass Vibe-Coding erst kürzlich angekommen ist, seine Grenzen nicht bekannt sind und möglicherweise höher angenommen werden, als realistisch erwartet werden kann.

Sie schließen ihr Angebot mit einem Aufruf zu einer Zielverschiebung ‘von Code, der compiliert, zu Code, der wettbewerbsfähig ist‘ ab.

Eine Frage, die der interessierte Leser dieses interessanten neuen Papiers haben könnte, ist, ob die Autoren nach oben oder unten schlagen, da die agente Aufgabe in Frage wesentlich komplexer und involvierter ist als das Erstellen von PowerShell-Skripten und anderen Formen von geringer Funktionalität und Korrekturen, für die Vibe-Coding gut geeignet ist.

* Bitte beachten Sie, dass das Papier kontinuierlich auf ‘DeepThink R1′ verweist, das offensichtlich nicht existiert und nur eine Handvoll von Referenzen im Internet aufweist (vermutlich von anderen Autoren, die ‘DeepSeek R1’ falsch geschrieben haben). Wenn dies mein Fehler ist, kontaktieren Sie mich bitte über meine Profildaten, und ich werde es ändern.

^† Betonung der Autoren, nicht meine.

Erstveröffentlicht am Mittwoch, den 26. November 2025. Geändert am 17:35 Uhr (MEZ) für die Formatierung.