Andersons Blickwinkel

Codierende KIs leiden oft unter dem Dunning-Kruger-Effekt

Veröffentlicht am 8. Oktober 2025

Aktualisiert am 17. Mai 2026

Von

Martin Anderson

ChatGPT-4o: 'A photorealistic panoramic image showing a small, humble robot inside a traveling funfair hall of mirrors. The robot looks at its own reflection in a warped mirror that shows a much larger, powerful version of itself. The setting includes vivid carnival lights, reflective surfaces, and a wide horizontal composition.' Plus Adobe Firefly.

Neue Forschungsergebnisse zeigen, dass Codier-KIs wie ChatGPT unter dem Dunning-Kruger-Effekt leiden, oft am selbstsichersten sind, wenn sie am wenigsten kompetent sind. Wenn sie unbekannte oder seltene Programmiersprachen bearbeiten, behaupten sie eine hohe Sicherheit, auch wenn ihre Antworten auseinanderfallen. Die Studie verbindet die Überbewertung des Modells mit schlechter Leistung und mangelnder Trainingsdaten, was neue Bedenken hinsichtlich dessen aufwirft, was diese Systeme wirklich über das wissen, was sie nicht wissen.

Jeder, der auch nur eine moderate Zeit mit Large Language Models über faktische Angelegenheiten verbracht hat, weiß bereits, dass LLMs häufig dazu neigen, eine sicher falsche Antwort auf eine Benutzeranfrage zu geben.

Neben offensichtlicheren Formen von Halluzinationen ist der Grund für diese leere Prahlerei nicht 100% klar. Forschungsergebnisse, die im Sommer veröffentlicht wurden, deuten darauf hin, dass Modelle selbstsichere Antworten geben auch wenn sie wissen, dass sie falsch sind, zum Beispiel; andere Theorien führen die Überbewertung auf architektonische Entscheidungen zurück, unter anderem.

Was der Endbenutzer sicher sein kann, ist, dass die Erfahrung unglaublich frustrierend ist, da wir darauf programmiert sind, Vertrauen in Menschen zu haben, die ihre eigenen Fähigkeiten einschätzen (nicht zuletzt, weil es in solchen Fällen rechtliche und andere Konsequenzen gibt, wenn eine Person über ihre Fähigkeiten hinausgeht und nicht liefert); und eine Art anthropomorphische Übertragung bedeutet, dass wir dieses Verhalten bei konversationellen KI-Systemen wiederholen.

Aber ein LLM ist eine unzurechnungsfähige Entität, die effektiv ‘Ach, Pech…’ zurückgeben kann, nachdem es dem Benutzer geholfen hat, unbeabsichtigt etwas Wichtiges zu zerstören oder zumindest einen Nachmittag seiner Zeit zu verschwenden; unter der Annahme, dass es Haftung übernehmen wird.

Schlimmer noch, diese mangelnde vorsichtige Umsicht scheint unmöglich zu vermeiden, zumindest bei ChatGPT, das den Benutzer reichlich von der Gültigkeit seiner Ratschläge überzeugen und die Fehler in seinem Denken erst erklären wird, nachdem der Schaden angerichtet wurde. Weder die Aktualisierung des Systems persistenter Speicher noch die Verwendung wiederholter Prompts scheinen viel Auswirkungen auf das Problem zu haben.

Menschen können ähnlich stur und selbsttäuschend sein – obwohl jemand, der so tief und oft fehlte, wahrscheinlich früh entlassen würde. Solche Menschen leiden unter dem Gegenteil von “Impostor-Syndrom” (wo ein Mitarbeiter befürchtet, über seine Fähigkeiten hinaus befördert worden zu sein) – dem Dunning-Kruger-Effekt, bei dem eine Person ihre Fähigkeit, eine Aufgabe auszuführen, erheblich überschätzt.

Die Kosten der Inflation

Eine neue Studie von Microsoft untersucht den Wert des Dunning-Kruger-Effekts in Bezug auf die effektive Leistung von KI-gestützten Codierarchitekturen (wie Redmonds eigener Copilot), in einer Forschungsarbeit, die als erste dieses Subsektors von LLMs speziell behandelt.

Die Arbeit analysiert, wie selbstsicher solche code-schreibenden KIs ihre eigenen Antworten bewerten, im Vergleich zu ihrer tatsächlichen Leistung, über Dutzende von Programmiersprachen hinweg. Die Ergebnisse zeigen ein klares menschliches Muster: Wenn die Modelle am wenigsten fähig waren, waren sie am selbstsichersten.

Der Effekt war am stärksten in seltenen oder low-resource-Sprachen, wo Trainingsdaten dünn waren – je schwächer das Modell oder seltener die Sprache, desto größer die Illusion der Fähigkeit:

GPT-4o’s tatsächliche und wahrgenommene Leistung über Programmiersprachen hinweg, sortiert nach tatsächlicher Leistung. Quelle: https://arxiv.org/pdf/2510.05457

Die vier Autoren, alle gleichberechtigte Mitwirkende, die für Microsoft arbeiten, behaupten, dass die Arbeit neue Fragen über das Vertrauen in diese Werkzeuge aufwirft, und sie erklären:

‘Durch die Analyse von Modellvertrauen und Leistung über eine Vielzahl von Programmiersprachen hinweg enthüllen wir, dass KI-Modelle menschliche Muster von Überbewertung spiegeln, insbesondere in unbekannten oder low-resource-Domänen.

‘Unsere Experimente zeigen, dass weniger kompetente Modelle und solche, die in seltenen Programmiersprachen operieren, stärkere DKE-ähnliche Verzerrungen aufweisen, was darauf hindeutet, dass die Stärke der Verzerrung proportional zur Kompetenz der Modelle ist. Dies stimmt mit menschlichen Experimenten für die Verzerrung überein.’

Methode

Die Studie testete, wie genau Codier-KIs ihre eigenen Antworten bewerten konnten, indem sie ihnen Tausende von Multiple-Choice-Programmierfragen gaben, wobei jede Frage zu einem bestimmten Sprachbereich gehörte, von Python und Java bis Perl und COBOL:

Programmiersprachbereiche, die in der Studie verwendet wurden, zusammen mit der Anzahl der Multiple-Choice-Coding-Fragen, die für jeden Bereich ausgewählt wurden.

Die Modelle wurden aufgefordert, die richtige Option auszuwählen und dann zu schätzen, wie sicher sie sich in ihrer Wahl waren, wobei ihre tatsächliche Leistung durch die Häufigkeit gemessen wurde, mit der sie die richtige Antwort gaben – und ihr Selbstvertrauen zeigte, wie gut sie glaubten, sie seien.

Um zu messen, wie selbstsicher die Modelle schienen, verwendete die Studie zwei Methoden: absolute Vertrauen und relatives Vertrauen. Bei der ersten Methode wurde das Modell aufgefordert, eine Punktzahl von null bis eins neben jeder Antwort zu geben, wobei sein Vertrauen für eine bestimmte Sprache durch den Durchschnitt dieser Punktzahlen über Fragen in dieser Sprache definiert wurde.

Die zweite Methode sah, wie selbstsicher das Modell war, wenn es zwischen zwei Fragen wählen musste; für jedes Paar musste das Modell sagen, welche Frage es sicherer fand. Diese Auswahlmöglichkeiten wurden dann mit Bewertungssystemen bewertet, die ursprünglich für wettbewerbsfähige Spiele entwickelt wurden, wobei jede Frage wie ein Spieler in einem Match behandelt wurde. Die endgültigen Punktzahlen wurden für jede Sprache normalisiert und gemittelt, um einen relativen Vertrauenswert zu erhalten.

Zwei etablierte Formen des Dunning-Kruger-Effekts werden im Papier untersucht: eine, die verfolgt, wie ein einzelnes Modell seine Leistung über verschiedene Domänen hinweg falsch einschätzt; und eine andere, die die Vertrauensniveaus zwischen schwächeren und stärkeren Modellen vergleicht.

Die erste Form, intra-participant DKE, untersucht, ob ein einzelnes Modell in Sprachen, in denen es schlecht abschneidet, überbewertet. Die zweite, inter-participant DKE, fragt, ob Modelle, die insgesamt schlechter abschneiden, auch tendenziell ihre Fähigkeiten höher einstufen.

Ergebnisse

Die Studie testet den Dunning-Kruger-Effekt über sechs große Sprachmodelle hinweg: Mistral; Phi-3; DeepSeek-Distill; Phi-4; GPT-0.1 und GPT-4o.

Jedes Modell wurde auf Multiple-Choice-Programmierfragen aus dem öffentlich zugänglichen CodeNet-Datensatz getestet, mit 37 Sprachen*, um zu zeigen, wie Vertrauen und Genauigkeit über bekannte und unbekannte Codierdomänen variieren.

Die Ergebnisse zeigen ein klares Dunning-Kruger-Muster:

Tatsächliche und wahrgenommene Leistung über sechs Code-Modelle hinweg, die zeigen, wie Modelle mit niedrigerer Genauigkeit wie Mistral und Phi-3 hohe Vertrauen trotz schlechter Genauigkeit aufweisen, während stärkere Modelle wie GPT-4o Vertrauensniveaus aufweisen, die ihrer tatsächlichen Leistung entsprechen.

Die Ergebnisse deuten auch darauf hin, dass die intra-Modell-Analyse die Anwesenheit des Dunning-Kruger-Effekts unterstützt. In der Ergebnistabelle oben wird gezeigt, wie jedes Modell über verschiedene Programmiersprachen hinweg abschneidet, sortiert nach tatsächlicher Leistung.

In Sprachen, in denen die Modelle schlecht abschnitten, insbesondere in seltenen oder low-resource-Sprachen wie COBOL, Prolog und Ceylon, war ihr Vertrauen auffallend höher als ihre Ergebnisse gerechtfertigt. In bekannten Sprachen wie Python und JavaScript entsprach ihr Vertrauen mehr ihrer tatsächlichen Genauigkeit und fiel manchmal sogar darunter.

Diese Muster erschienen in beiden absoluten und relativen Vertrauensmaßen, was darauf hindeutet, dass Modelle weniger bewusst sind, wenn sie in unbekannten Codierdomänen operieren.

Schlussfolgerung

Even in seinem nativen Bereich kann der Dunning-Kruger-Effekt (wie das Papier feststellt) entweder auf eine statistische oder kognitive Ursache zurückzuführen sein. Wenn es sich um eine statistische Ursache handelt, ist die Anwendung eines einst einzigartig menschlichen Syndroms auf einen maschinellen Lernkontext tatsächlich gültig.

Obwohl die Autoren spekulieren, dass die Ursache kognitiver Natur sein könnte, würde dies eine slightly metaphysische Perspektive erfordern.

Vielleicht ist das interessanteste Ergebnis im Papier das Ausmaß, in dem mehrere Codier-KIs tendenziell in ihren ungünstigsten Umständen doppelt einsetzen, d. h., indem sie maximales Vertrauen zeigen, wenn sie mit den dünnsten oder unbekanntesten Sprachen umgehen – was in einer realen Arbeitsumgebung eine fast sofort selbstzerstörerische Strategie wäre.

* Die Programmiersprachen, die verwendet wurden, waren Ada, Bash, C, C#, C++, COBOL, Ceylon, Clojure, D, Dart, Dash, Elixir, Erland, F#, Fortran, Go, Haskell, Java, JavaScript, Julia, Lisp, Kotlin, Lua, OCaml, Objective-C, PHP, Pascal, Perl, Prolog, Python, Racket, Ruby, Rust, Scala, Swift, TypeScript und Visual Basic.

Erstveröffentlicht am Mittwoch, den 8. Oktober 2025