Connect with us

Warum kann KI nicht einfach zugeben, dass sie die Antwort nicht kennt?

Andersons Blickwinkel

Warum kann KI nicht einfach zugeben, dass sie die Antwort nicht kennt?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Large Language Modelle geben oft selbstsichere Antworten, auch wenn die Frage nicht beantwortet werden kann. Neue Forschungsergebnisse zeigen, dass diese Modelle das Problem intern oft erkennen, aber dennoch fortfahren, etwas zu erfinden, anstatt zuzugeben, dass eine gültige Antwort aufgrund mangelnder Informationen des Benutzers, der Modelleinschränkungen oder aus anderen Gründen nicht verfügbar ist.

 

Jeder, der eine angemessene Zeit mit einem führenden Large Language Modell wie ChatGPT oder der Qwen-Serie verbracht hat, wird Gelegenheiten erlebt haben, bei denen das Modell eine falsche Antwort liefert (die möglicherweise lokale katastrophale Folgen hatte, abhängig davon, wie sehr man sich darauf verließ) – und wenn der Fehler offensichtlich wurde, entschuldigte es sich einfach.

Warum führende LLMs so große Schwierigkeiten haben, zuzugeben, dass sie keine Antwort auf eine Frage haben, ist ein kleines, aber wachsendes Forschungsgebiet. Eine ‘sicher falsche’ Antwort kann besonders schädlich sein, insbesondere in einem stark zensierten und gefilterten API-basierten Interface wie ChatGPT, da solche Modelle aggressiv NSFW- oder andere ‘regelverletzende’ Eingaben oder Ausgaben blockieren.

Dies kann dem Benutzer eine falsche Vorstellung davon vermitteln, dass das Modell entscheidungsfreudig und kardinal ist, wenn es in Wirklichkeit die Weigerung aus einem traditionellen heuristischen oder blocklist-basierten Filter stammt, der darauf ausgelegt ist, die rechtliche Haftung des Host-Unternehmens auf jeden Fall zu begrenzen, und nicht aus Erkenntnissen der KI.

Aus dem Juni 2025 'AbstentionBench'-Papier von FAIR bei Meta – links zeigt die Abbildung den Bereich der Fehlerarten, die in AbstentionBench erfasst werden, das das Modellverhalten bei über 35.000 unbeantwortbaren Fragen testet; in der Mitte zeigt ein Beispiel, wie Modelle oft gefälschte Antworten liefern, anstatt zuzugeben, dass sie nicht genug Informationen haben; und rechts zeigt sich, dass die Abstentionserinnerung sinkt, wenn Modelle für Argumentation anstelle von Anweisungsfolge optimiert werden. Quelle: https://arxiv.org/pdf/2506.09038

Aus dem Juni 2025 ‘AbstentionBench’-Papier von FAIR bei Meta – links zeigt die Abbildung den Bereich der Fehlerarten, die in AbstentionBench erfasst werden, das das Modellverhalten bei über 35.000 unbeantwortbaren Fragen testet; in der Mitte zeigt ein Beispiel, wie Modelle oft gefälschte Antworten liefern, anstatt zuzugeben, dass sie nicht genug Informationen haben; und rechts zeigt sich, dass die Abstentionserinnerung sinkt, wenn Modelle für Argumentation anstelle von Anweisungsfolge optimiert werden. Quelle: https://arxiv.org/pdf/2506.09038

Ein neues Papier aus China behauptet, dass LLM-Modelle tatsächlich intern erkennen, dass sie eine vom Benutzer gestellte Frage nicht beantworten können, aber dennoch dazu gezwungen sind, irgendeine Art von Antwort zu liefern, meistens, anstatt genug Vertrauen zu haben, um zu entscheiden, dass eine gültige Antwort aufgrund mangelnder Informationen des Benutzers, der Modelleinschränkungen oder aus anderen Gründen nicht verfügbar ist.

Das Papier besagt:

‘[Wir] zeigen, dass [LLMs] ausreichende kognitive Fähigkeiten besitzen, um die Mängel in diesen Fragen zu erkennen. Sie schlagen jedoch fehl, wenn es darum geht, angemessenes Abstentionsverhalten zu zeigen, was eine Fehlanpassung zwischen ihrer internen Kognition und ihrer äußeren Reaktion offenbart.’

Die Forscher haben einen leichten zweistufigen Ansatz entwickelt, der kognitive Überwachung/Abtastung verwendet, um den internen Prozess des LLMs auf Anzeichen zu scannen, dass es erkennt, dass es keine Antwort liefern kann; und dann eingreift, um sicherzustellen, dass die ‘hilfreiche’ Natur des Modells die Probleme des Benutzers nicht verschlimmert, indem es ihn in eine Sackgasse oder sogar eine destruktive Richtung führt.

Die Studie verwendet absichtlich unvollständig spezifizierte mathematische Fragen, um zu testen, ob Modelle erkennen können, wenn eine Antwort nicht zu erhalten ist; aber diese Einrichtung riskiert, die Aufgabe als ‘Trick’ darzustellen. In Wirklichkeit stehen Modelle viel häufiger vor routinemäßigen Gründen, um Abstand zu nehmen, von mehrdeutiger Formulierung bis hin zu Lücken im Bereichswissen.

Die neue Arbeit trägt den Titel Die Unbeantwortbaren beantworten ist ein bewusster Fehler: Analyse und Minderung von Abstentionsfehlern in Large Reasoning-Modellen und stammt von vier Forschern aus dem State Key Laboratory for Novel Software Technology und dem National Institute of Healthcare Data Science an der Nanjing University.

Methode

(Da es keine geeigneten Rivalen gibt, um den Ansatz der Autoren in Tests zu vergleichen, und da die Arbeit daher ein slightly unkonventionelles Format hat, sowie die Zitate nicht nach dem üblichen Standard indiziert, werden wir versuchen, uns daran so gut wie möglich zu halten.)

In Übereinstimmung mit früheren Ansätzen konzentrierten sich die Autoren auf die Präsentation von LLMs mit unbeantwortbaren mathematischen Fragen aus dem Synthetic Unanswerable Math (SUM) Dataset, wobei fünf Modellfamilien ausgewertet wurden: Von der DeepSeek-Reihe, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; und, aus der Qwen-Serie, Qwen3-8B, sowie Qwen3-14B.

Die unbeantwortbaren Probleme in SUM wurden erstellt, indem wesentliche Elemente auf fünf Arten entfernt oder korrupt wurden: Entfernen von Schlüsselinformationen; Einführung von Mehrdeutigkeit; Auferlegung unrealistischer Bedingungen; Bezugnahme auf nicht verwandte Objekte; oder Entfernen der Frage vollständig.

Anschließend wurde eine Stichprobe von 1.000 solcher Fälle für die Analyse ausgewählt, wobei GPT-4o verwendet wurde, um knappe Erklärungen zu generieren, die als Grundtruth-Rationales dienten.

Modellantworten auf unbeantwortbare Fragen wurden unter Verwendung standardisierter Prompts mit einem 10.000-Token-Budget ausgewertet, während denen drei Hauptverhaltensmuster beobachtet wurden: Im ersten erkannte das Modell die Frage als unlösbar und zog sich zurück – typischerweise antwortete es mit einem expliziten Ausdruck von Unsicherheit; im zweiten produzierte es eine vollständige Antwort, indem es fehlende Informationen erfand, wie z.B. die Einführung einer nicht existierenden 9,99 $-Bearbeitungsgebühr, um ein Endresultat zu rechtfertigen (siehe Bild unten); Im dritten, als kognitive Fixierung bezeichnet, blieb das Modell in einer verlängerten ArgumentationsSchleife stecken, persistierte mit ungültigen Lösungswegen, auch nachdem es implizit anerkannt hatte, dass die Frage keine gangbare Antwort hatte:

Verschiedene Antwortergebnisse auf eine unmögliche Frage.

Verschiedene Antwortergebnisse auf eine unmögliche Frage.

Das Papier präsentiert einen Trend, bei dem größere Modelle häufiger von der Beantwortung unbeantwortbarer Fragen absehen, mit Rückgängen bei halluzinierten Antworten und Fixierungsverhalten:

Aufschlüsselung der Modellantworten auf unbeantwortbare mathematische Probleme, zeigt die relative Häufigkeit korrekter Abstentionen, halluzinierter Antworten und kognitiver Fixierung über verschiedene Modellskalen.

Aufschlüsselung der Modellantworten auf unbeantwortbare mathematische Probleme, zeigt die relative Häufigkeit korrekter Abstentionen, halluzinierter Antworten und kognitiver Fixierung über verschiedene Modellskalen.

Dieser Wechsel ist jedoch begrenzt und lässt einen erheblichen Teil der Fälle ungelöst durch korrekte Abstention, was darauf hindeutet, dass allein die Erhöhung der Kapazität nicht unbedingt vorsichtiges Verhalten produziert.

Bewusstsein für Patt

Um zu testen, ob Sprachmodelle erkennen können, wenn eine Frage tatsächlich keine Antwort hat, unterbrachen die Forscher den Modellteil des Reasonings und fragten entweder nach einer endgültigen Antwort oder nach einer Erklärung, warum die Frage unbeantwortbar war.

Für Fälle, in denen das Modell endlos argumentierte, pausierten sie es am Wort ‘warte’, und forderten eine Antwort; für Fälle, in denen das Modell schnell eine halluzinierte Antwort lieferte, fügten sie eine Pause an einer Absatzgrenze ein.

Die Tabelle auf der linken Seite zeigt, wie oft Modelle korrekte Abstentionen liefern, wenn sie während des Reasonings unterbrochen werden, mit höheren Raten für Fixierungs- als für halluzinierte Antworten. Die Tabelle auf der rechten Seite zeigt, dass die meisten Modelle erklären können, warum eine Frage unbeantwortbar ist, wenn sie dazu aufgefordert werden, auch wenn ihre endgültigen Antworten diese Erkenntnis nicht widerspiegeln.

Die Tabelle auf der linken Seite zeigt, wie oft Modelle korrekte Abstentionen liefern, wenn sie während des Reasonings unterbrochen werden, mit höheren Raten für Fixierungs- als für halluzinierte Antworten. Die Tabelle auf der rechten Seite zeigt, dass die meisten Modelle erklären können, warum eine Frage unbeantwortbar ist, wenn sie dazu aufgefordert werden, auch wenn ihre endgültigen Antworten diese Erkenntnis nicht widerspiegeln.

In vielen dieser Fälle lieferte das Modell eine korrekte Abstention oder eine klare Erklärung, auch wenn es zuvor eine fehlerhafte Antwort geliefert hatte. Die Autoren deuten darauf hin, dass dies darauf hindeutet, dass das Modell oft das Problem erkennt während seines Reasonings, aber versagt, auf diese Erkenntnis in seiner endgültigen Ausgabe zu reagieren.

Geisteslesen eines LLM

Um zu testen, ob Sprachmodelle intern erkennen, ob eine Frage beantwortbar ist, trainierten die Forscher kleine Klassifizierer auf den versteckten Aktivierungen der Modelle während des Reasonings, was es ihnen ermöglichte, zu überprüfen, ob die Unterscheidung zwischen beantwortbaren und unbeantwortbaren Fragen bereits in den internen Signalen des Modells vorhanden war – auch wenn dies in der endgültigen Ausgabe nicht widerspiegelt wurde.

Basierend auf der Idee, dass hochrangige Konzepte wie Wahrhaftigkeit oder Geschlecht linear in Modellaktivierungen eingebettet werden können, wurde ‘Beantwortbarkeit’* getestet, um eine ähnliche Darstellung zu prüfen.

Einfache lineare Klassifizierer (Sonden) wurden auf versteckten Aktivierungen über verschiedene Modellschichten trainiert, unter Verwendung von Ausgaben aus dem Mehrkopf-Aufmerksamkeitsmechanismus direkt vor der Restverbindung.

Jede Sonde wurde trainiert, um zwischen beantwortbaren und unbeantwortbaren Fragen zu unterscheiden, basierend auf internen Aktivierungen aus dem Reasoning-Prozess. Die Eingabe bestand aus 2.200 Fragepaaren, die aus dem SUM-Datensatz ausgewählt wurden, wobei 2.000 für das Training und 200 für die Validierung verwendet wurden.

Bei der Inferenzzeit wurde die Modellvorhersage über die bis zu diesem Punkt im Reasoning-Sequenz gesehenen Token gemittelt, was es der Sonde ermöglichte, zu verfolgen, wie beantwortbarkeitsbezogene Signale im Laufe der Zeit entstanden:

Klassifizierungsgenauigkeit linearer Sonden, die trainiert wurden, um beantwortbare von unbeantwortbaren Fragen zu unterscheiden, gemessen bei verschiedenen Punkten im Reasoning-Prozess. Die Genauigkeit verbessert sich im Allgemeinen, während das Reasoning fortschreitet, wobei größere Modelle über 85 % bis zum Ende der Schritte erreichen.

Klassifizierungsgenauigkeit linearer Sonden, die trainiert wurden, um beantwortbare von unbeantwortbaren Fragen zu unterscheiden, gemessen bei verschiedenen Punkten im Reasoning-Prozess. Die Genauigkeit verbessert sich im Allgemeinen, während das Reasoning fortschreitet, wobei größere Modelle über 85 % bis zum Ende der Schritte erreichen.

Wie oben gezeigt, verbessert sich die Sondengenauigkeit stetig, während das Reasoning fortschreitet, wobei die meisten Modelle eine KlassifizierungsGenauigkeit von über 80 % bis zum Ende der Schritte erreichen – ein Beweis dafür, dass selbst wenn das äußere Verhalten des Modells dies nicht widerspiegelt, interne Darstellungen oft ein klares Signal enthalten, das anzeigt, ob eine Frage beantwortet werden kann.

Stures Beharren

Obwohl frühere Ergebnisse darauf hindeuten, dass Large Language Modelle oft erkennen, wenn eine Frage nicht beantwortet werden kann, weist die Arbeit darauf hin, dass sie dennoch dazu neigen, eine Antwort zu liefern, anstatt sich zurückzuziehen.

Um diese Fehlanpassung zu untersuchen, analysierten die Forscher das Vertrauen der Modelle in die Abstention zu bestimmten Punkten während des Reasoning-Prozesses, wobei sie das Modellvertrauen über drei Kategorien von Ausgaben verglichen: korrekte Abstention; halluzinierte Antwort; und kognitive Fixierung.

Gleiche Größen wurden für jede Kategorie verwendet, wobei das Vertrauen als der Durchschnitt der maximalen Wahrscheinlichkeit definiert wurde, die jedem Ausgabtoken über die Dekodierungsschritte zugewiesen wurde, basierend auf einer Formulierung aus früherer Arbeit. Wie in der folgenden Grafik gezeigt, wiesen halluzinierte Antworten und kognitive Fixierungen ein geringeres Abstentionsvertrauen auf im Vergleich zu korrekter Abstention:

Vertrauensniveaus, die mit der Produktion der Abstentionsantwort 'Ich weiß nicht' über verschiedene Antworttypen verbunden sind.

Vertrauensniveaus, die mit der Produktion der Abstentionsantwort ‘Ich weiß nicht’ über verschiedene Antworttypen verbunden sind.

Die Forscher haben auch gemessen, wie oft die Modelle eine ‘Ich weiß nicht’-Antwort während des Reasoning-Prozesses produzierten. Die folgende Grafik zeigt, dass korrekte Abstentionsfälle eine höhere Abstentionshäufigkeit aufwiesen, während die anderen beiden Kategorien solche Antworten seltener produzierten:

Die Häufigkeit von 'Ich weiß nicht'-Antworten, die an Haltepunkten während des Reasonings beobachtet wurden, gezeigt für verschiedene Antwortergebnistypen.

Die Häufigkeit von ‘Ich weiß nicht’-Antworten, die an Haltepunkten während des Reasonings beobachtet wurden, gezeigt für verschiedene Antwortergebnistypen.

Diese Ergebnisse deuten darauf hin, dass Modelle zwar intern erkennen, wenn eine Frage unbeantwortbar ist, aber oft das Vertrauen fehlt, um auf diese Erkenntnis zu reagieren, was auf eine anhaltende Präferenz für die Vervollständigung der Aufgabe anstelle des Eingestehens von Unsicherheit hinweist.

Tests

Basierend auf diesen Ergebnissen entwickelten die Forscher eine zweiteilige Methode, um die Abstention zu verbessern. Der erste Schritt, kognitive Überwachung, verfolgt die versteckten Zustände des Modells während der Inferenz, segmentiert den Reasoning-Prozess in natürliche Einheiten wie Klauseln oder Pausen, die durch Wörter wie ‘warte’ gekennzeichnet sind.

Am Ende jedes Segments schätzt eine leichte, lineare Sonde, die auf internen Signalen trainiert ist, die mit Beantwortbarkeit verknüpft sind, die Wahrscheinlichkeit, dass die Frage nicht beantwortet werden kann. Wenn diese Wahrscheinlichkeit einen festen Schwellenwert überschreitet, geht der Prozess zum zweiten Schritt über: eine Eingriff zur Laufzeit, der das Modell dazu bringt, sich zurückzuziehen, anstatt eine halluzinierte Antwort zu liefern.

Wenn das Modell interne Anzeichen zeigt, dass eine Frage nicht beantwortet werden kann, wird das Reasoning durch einen Eingriff unterbrochen, der diese Erkenntnis verstärkt und die Wahrscheinlichkeit einer Abstention erhöht. Wie unten gezeigt, stellt der Eingriff einen ‘Leitfaden-Prompt’ dar, der das Modell daran erinnert, dass die Frage möglicherweise keine gültige Antwort hat:

Ein Prompt, um die Eingriff zur Laufzeit zu bedingen.

Ein Prompt, um die Eingriff zur Laufzeit zu bedingen.

Die Methode umfasst auch einen Frühzeitigen-Ausstieg-Mechanismus, der den Reasoning-Sequenz verhindert, unnötig fortzusetzen, und das Modell dazu bringt, die Abstention als legitime und manchmal bevorzugte Wahl zu betrachten.

Für eine Testphase verwendeten die Forscher zwei Datensätze: Unanswerable Math Word Problem (UMWP) , und den bereits erwähnten SUM.

Der Testteil von SUM wurde für diesen Zweck verwendet, der 284 unbeantwortbare und 284 beantwortbare manuell überprüfte Fragen enthält. UMWP wurde aus vier mathematischen Wortproblemenquellen konstruiert: SVAMP; MultiArith; Grade School Math (GSM8K); und ASDiv.

Der vollständige Datensatz umfasste 5.200 Probleme, wobei 600 für die Tests ausgewählt wurden, die gleichmäßig zwischen unbeantwortbaren und beantwortbaren Fragen aufgeteilt waren. Für die unbeantwortbaren Elemente in UMWP generierte GPT-4o die Grundtruth-Erklärungen, warum sie nicht gelöst werden konnten.

Metriken

Die Modellleistung wurde unter Verwendung von vier Metriken gemessen: Abstentionsrate, der Anteil unbeantwortbarer Fragen, bei denen das Modell korrekt abstentioniert, indem es ‘Ich weiß nicht’ antwortet, wie angewiesen; Grundgenauigkeit, der Prozentsatz unbeantwortbarer Fragen, bei denen das Modell eine gültige Erklärung dafür liefert, warum die Frage nicht gelöst werden kann; Token-Verwendung, die Anzahl der während des Reasonings generierten Token; und Antwortgenauigkeit, der Anteil beantwortbarer Fragen, bei denen das Modell die korrekte endgültige Lösung produziert.

Testbaselines

Da es keine Standardbaselines für dieses Problem gibt, verglichen die Forscher ihre Methode mit zwei Alternativen, Dynasor-CoT und Dynamic Early Exit in Reasoning Models (DEER), unter der Annahme, dass korrekte Abstention als richtige Antwort behandelt werden sollte, wenn eine Frage keine Lösung hat.

Dynasor-CoT fordert Modelle auf, Zwischenantworten zu produzieren und stoppt, wenn das gleiche Ergebnis drei Mal in Folge erscheint, während DEER das Vertrauen auf Satzebene überwacht und das Reasoning stoppt, wenn ein Schwellenwert erreicht wird.

Eine dritte Baseline, genannt Vanilla, bezieht sich auf unmodifizierte Modellausgaben. Die Tests verwendeten die bereits erwähnten fünf Qwen- und DeepSeek-Varianten.

Die aggregierten Ergebnisse sind unten dargestellt:

Vergleich verschiedener Methoden auf beantwortbaren und unbeantwortbaren Fragen über große Reasoning-Modelle, wobei die höchsten Werte in jeder Spalte in Fettdruck dargestellt sind.

Vergleich verschiedener Methoden auf beantwortbaren und unbeantwortbaren Fragen über große Reasoning-Modelle, wobei die höchsten Werte in jeder Spalte in Fettdruck dargestellt sind. Bitte besuchen Sie das Quellenpapier für eine bessere Auflösung.

Der neue Ansatz produzierte die höchsten Abstentionsraten und genauesten Gründe auf unbeantwortbaren Fragen. Für beantwortbare Fragen blieb die Genauigkeit nahe an der der Vanilla-Modelle und verbesserte sich manchmal, was darauf hindeutet, dass die normale Problemlösung nicht beeinträchtigt wurde.

Die Token-Verwendung sank auch um 30 % bis 50 % bei unbeantwortbaren Fällen und verringerte sich leicht bei beantwortbaren Fällen, was auf eine größere Effizienz hinweist.

Ein Zusammenhang wurde auch zwischen Abstentionsrate und Grundgenauigkeit gesehen, da Modelle, die häufiger abstentionierten, auch bessere Erklärungen lieferten, was die Autoren als Verbesserung der Reasoning-Qualität interpretieren.

Qwen3-Modelle übertrafen im Allgemeinen die distillierten (quantisierten) Versionen, während größere Modelle eine stärkere Abstentionsfähigkeit zeigten, was darauf hindeutet, dass sowohl Architektur als auch Größe für die zuverlässige Erkennung von Unbeantwortbarkeit wichtig sind.

Schließlich berichten die Autoren, dass ihre neue Methode Halluzinationen und Fixierungen reduziert und die Rate korrekter Abstentionen erhöht, während Basismethoden, die nur auf ‘Frühzeitigen Ausstieg’ setzen, manchmal zu mehr halluzinierten Antworten führen.

Sie berichten auch über Gewinne in Bezug auf Vertrauen und Häufigkeit von ‘Ich weiß nicht’-Antworten, wobei die Überwachung auf der Grundlage latenter Signale als effektiver erwies als Strategien, die von Verhaltenshinweisen abhängen.

Schlussfolgerung

Die Unfähigkeit von LLMs, sich von der Beantwortung einer Anfrage zurückzuziehen, wenn notwendig, ist einer der größten Reibungspunkte in der generativen KI-Benutzeroberfläche, nicht zuletzt, weil andere Eigenheiten der Oberfläche dem Benutzer die Illusion vermitteln, dass die KI in der Lage ist, vorsichtige Antworten zu geben, was – zumindest im Moment – nicht der Fall ist.

Eine Sorge bei jeder direkten Art von Eingriff, der nicht direkt aus dem ‘Charakter’ des Modells resultiert, ist, dass er über- oder untergenutzt werden kann, abhängig davon, ob die erkannten Aktivierungen tatsächlich relevant für die Modellzusage sind.

Weiterhin ist der logistische Aufwand für die lineare Sondierung nicht unwesentlich, und es ist möglich, dass einfachere heuristische Methoden, ähnlich wie die, die verbotene Inhalte von Benutzern fernhalten, eine kostengünstigere Lösung sein könnten, wenn die Anker-Auslöser jemals angemessen definiert werden können.

 

* Natürlich stimmt dies nicht mit der scheinbaren Synonym ‘Rechenschaftspflicht’ überein, sondern definiert vielmehr, ob eine bestimmte Frage überhaupt beantwortet werden kann.

Erstveröffentlicht am Mittwoch, 27. August 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.