Connect with us

Andersons Blickwinkel

Humaner Code aus 2020 schlug vibe-codierte Agenten in Agentic-Tests

mm
AI-generated image: a Victorian coach and horses winning formula 1 against modern race car competitors. gpt-image-1.

ChatGPT und andere vibe-codierte Tools wurden in fast 40.000 Matches getestet – und verloren gegen Code, der von Studenten vor der Erfindung von Large Language Models geschrieben wurde.

 

In einer neuen Studie aus dem Vereinigten Königreich setzten Forscher human-codierte Agenten gegen vibe-codierte Agenten ein, die mit den neuesten Large Language Models (LLMs) wie ChatGPT-5 und Claude entwickelt wurden, und fanden heraus, dass die ohne die Hilfe von KI erstellten Agenten die KI-gestützten Versionen sehr leicht schlugen.

Beide Agentensätze wurden von verschiedenen Studentengenerationen des Artificial Intelligence Laboratory am Schweizerischen Bundesinstitut für Technologie in Lausanne erstellt. Die nicht-KI-Agenten wurden im Rahmen von Kursarbeiten im Jahr 2020 entwickelt, zwei Jahre vor der Einführung von ChatGPT und dem Beginn der LLM-Revolution, während die neuen Agenten von aktuellen Studenten mit den neuesten und besten verfügbaren LLMs erstellt wurden.

Selbst bei einem manipulierten Spiel konnten die vibe-codierte Lösungen nicht gewinnen, und die Top-5-Plätze wurden konsequent von “rohen” Agenten belegt, während die Mehrheit der LLM-Agenten (33 von 40) mühelos von “sehr einfachen” Baseline-Agenten in 38.304 Herausforderungen in einem Turnier über eine breite Anzahl von Variablen und Umständen besiegt wurden.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.