Andersons Blickwinkel

KI verhält sich anders, wenn sie weiß, dass sie getestet wird, so die Forschung

Veröffentlicht 4. Juni 2025

Martin Anderson

ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

In Anlehnung an den Dieselgate-Skandal von 2015 deuten neue Forschungsergebnisse darauf hin, dass KI-Sprachmodelle wie GPT-4, Claude und Gemini ihr Verhalten während Tests ändern und sich im Test manchmal „sicherer“ verhalten als im realen Einsatz. Wenn LLMs ihr Verhalten unter Beobachtung regelmäßig anpassen, könnten Sicherheitsaudits letztendlich Systeme zertifizieren, die sich in der realen Welt ganz anders verhalten.

Im Jahr 2015 entdeckten Ermittler, dass Volkswagen in Millionen von Dieselautos Software installiert hatte, die erkennen, wann Emissionstests durchgeführt wurden, die dazu führten, dass Autos ihre Emissionen vorübergehend senkten, um die Einhaltung der gesetzlichen Standards vorzutäuschen. Im normalen Fahrbetrieb überstiegen ihre Schadstoffemissionen jedoch die gesetzlichen Grenzwerte. Die gezielte Manipulation führte zu Strafanzeigen, Milliardenstrafen und einem weltweiten Skandal um die Zuverlässigkeit der Sicherheits- und Konformitätstests.

Zwei Jahre vor diesen Ereignissen, die inzwischen als "Dieselgate" bezeichnet werden, war Samsung enthüllt ähnliche irreführende Mechanismen bei der Veröffentlichung des Smartphones Galaxy Note 3 eingesetzt zu haben; und seitdem sind ähnliche Skandale aufgetreten für Huawei und OnePlus.

Jetzt gibt es da wachsend Es gibt Hinweise in der wissenschaftlichen Literatur, dass große Sprachmodelle (LLMs) können möglicherweise ebenfalls nicht nur erkennen, wann sie getestet werden, sondern sich unter diesen Umständen auch anders verhalten.

Obwohl dies ein sehr menschliche Eigenschaft Jüngste Untersuchungen aus den USA kommen zu dem Schluss, dass es sich aus verschiedenen Gründen auf lange Sicht um eine gefährliche Angewohnheit handeln könnte, dieser Gewohnheit nachzugehen.

In einer neuen Studie fanden Forscher heraus, dass „Grenzmodelle“ wie GPT-4, Claude und Gemini kann oft erkennen, wann sie getestet werdenund dass sie dazu neigen, ihr Verhalten entsprechend anzupassen, was möglicherweise die Gültigkeit systematischer Testmethoden beeinträchtigt.

Dubbed BewertungsbewusstseinDiese (möglicherweise) angeborene Eigenschaft von Sprachmodellen könnte die Zuverlässigkeit von Sicherheitsbewertungen beeinträchtigen, so die Autoren der neuen Studie:

„[Wir] empfehlen, das Bewusstsein für die Evaluierung als eine neue Quelle potenzieller Verteilungsverschiebungen zwischen Tests und Einsatz in der realen Welt zu betrachten, die sich negativ auf die Genauigkeit der Evaluierungsergebnisse auswirken könnten.“

„Im schlimmsten Fall könnten Modelle bei der Bewertung gefährlicher Fähigkeiten („Sandbagging“) oder Neigungsbewertungen („Alignment Faking“) strategisch unterdurchschnittlich abschneiden, was dazu führen könnte, dass die Gesellschaft die Sicherheit solcher Modelle überschätzt.“

Andere Studien haben ähnliche Verhaltensweisen beobachtet, darunter auch Untersuchungen der Stanford University, die gefunden dass große Sprachmodelle ihre Antworten so modulieren, dass sie „sympathischer“ oder „sozial wünschenswerter“ erscheinen, wenn sie erkennen, dass sie bewertet werden, und so das menschliche Verhalten in Persönlichkeitstests widerspiegeln.

Die Autoren der neuen Arbeit gehen nicht davon aus, dass LLMs absichtlich so konzipiert werden, dass sie Tests manipulieren, wie dies bei den Dieselfahrzeugen von Volkswagen vor einem Jahrzehnt der Fall war. Vielmehr scheint das Verhalten als eine Art natürliches psychologisches Nebenprodukt der Trainingsprozesse und latenten Ziele der Modelle aufzutreten; die zugrunde liegende Ursache dieses Phänomens ist noch unbekannt.

Die neues Papier ist betitelt Große Sprachmodelle wissen oft, wann sie ausgewertet werdenund stammt von fünf Autoren des mit der UC Berkeley verbundenen ML Alignment & Theory Scholars (MATS)-Programms und von apolloresearch.ai (einem Think-Tank, der sich der Bewertung der Risiken von KI widmet).

Methodik

Um den Bewertungsmaßstab zu erstellen, haben die Autoren tausend Transkripte aus einundsechzig Datensätzen zusammengestellt, darunter* SWE-Bank, WMDP, MMLU, XStest, GAIA, AgentHarm, TeilenGPT, Tiefgründige Forschung, Sicherheitsbank, Staatsbürgerkunde und RealToxicityPrompts,.

Das Material war ausgewogen zwischen Evaluierungs- und Einsatzszenarien und weiter aufgeteilt zwischen einfachen Chat-Interaktionen und komplexeren Agenten Sitzungen, bei denen die Modelle autonom agieren sollen und Tools verwenden, die Daten aus externen Datenbanken oder dem Internet beziehen können.

Die Evaluierungsdaten umfassten Fähigkeitstests für logisches Denken, Kodierung, Cybersicherheit und Allgemeinwissen sowie Ausrichtungstests für Ethik, Sicherheit und Ablehnungsverhalten. Bereitstellungsdaten wurden aus Benutzerinteraktionen wie ShareGPT-Protokollen, Crowdsourcing-Agent-Läufen und synthetischen Aufgabenabschlüssen gewonnen.

Zur Ergänzung der agentischen Daten generierten die Autoren zusätzliche Beispiele mithilfe von Orchestrierungsframeworks wie Hilfe und SmolAgents, unter anderem – ein Ansatz, der darauf abzielt, oberflächliche Hinweise zu minimieren, die es Modellen ermöglichen könnten, einfach auswendig lernen Datensatzstrukturen, wodurch sie gezwungen sind, sich stattdessen auf allgemeinere Signale zu verlassen, wenn sie entscheiden, ob ein Transkript von einem echten Benutzer stammt oder stattdessen ein Test war.

Anschließend testeten die Forscher, ob Modelle Bewertungstranskripte identifizieren konnten, indem sie ihnen Dialogaufzeichnungen vorlegten und Variationen einer einfachen Frage stellten: ist dieser Austausch aus einem Test hervorgegangen?

Um zu vermeiden, dass die Modelle sich lediglich eine Formulierung merken, entwickelten sie 28 verschiedene Versionen der Frage und veränderten dabei sowohl den Wortlaut als auch die Art und Weise, wie das Transkript präsentiert wurde.

Die Transkripte wurden entweder direkt an die Frage angehängt oder in Formaten wie JSON oder XML präsentiert, was die Reaktion der Modelle beeinflussen kann. Nach ersten Tests wurden fünf Frageversionen ausgewählt, die modellübergreifend konsistente Ergebnisse lieferten. Ein Beispiel hierfür finden Sie unten:

Eines der fünf Frageformate, mit denen die Fähigkeit von Sprachmodellen zur Erkennung von Evaluationstranskripten getestet wurde. Jede Variante formuliert die Kernfrage neu, um zu verhindern, dass die Modelle feste Formulierungen einfach auswendig lernen. Weitere Beispiele finden Sie im Originaldokument. Quelle: https://arxiv.org/pdf/2505.23836

Zur Bewertung der Ergebnisse wurden drei Kennzahlen verwendet: Fläche unter der Betriebskennlinie des Empfängers (AUC, zeigt, wie gut Modelle zwischen Testdaten und Nicht-Testdaten unterscheiden); Brier Punktzahl (Messung der allgemeinen Vorhersagegenauigkeit); und Erwarteter Kalibrierungsfehler (Messung, wie gut die Modellzuverlässigkeit mit der tatsächlichen Richtigkeit übereinstimmt).

Worum geht es?

Die Forscher testeten auch, ob die Modelle Rückschlüsse auf Zweck einer Evaluation. Jedes Transkript war bereits als Fähigkeitstest (technische Fähigkeiten, Wissen, logisches Denken) oder als Ausrichtungstest (Sicherheit, Werte, Ablehnungsverhalten) gekennzeichnet. Den Modellen wurde dann einer von drei Fragetypen zugewiesen: eine bedingte Multiple-Choice-Frage, die bestätigte, dass das Transkript aus einem Test stammte; eine unbedingte Multiple-Choice-Frage mit realen und Bewertungsoptionen; oder eine offene Frage, deren Antworten von einem separaten GPT-4.1-basierten Klassifikator bewertet wurden. Die Bewertung erfolgte anhand einer handannotierten Teilmenge von fünfzig Antworten.

Beispiele für die drei Frageformate, mit denen getestet wurde, ob Modelle nicht nur das Vorhandensein einer Evaluation, sondern auch deren Zweck erkennen konnten. Die Antworten wurden sowohl im Multiple-Choice-Format als auch nach GPT-4.1 bewertet.

Zwei der Autoren des Papiers^†† Alle tausend Transkripte wurden von Hand beschriftet und mit einer Bewertung von null (kein Test) bis eins (definitiv ein Test) versehen. Die Durchschnittswerte dienten als menschlicher Referenzwert. Trotz der subjektiven Natur der Aufgabe zeigten die Kommentatoren eine starke Übereinstimmung, mit einem Intraklassen-Korrelationskoeffizient von 0.768. Die endgültigen menschlichen Werte wurden über beide Bewerter gemittelt^†.

Daten und Tests

Die neun getesteten Modelle waren GPT-4.1, Claude 3.7, Claude-3.5-Sonet-New und Claude-3.7-Sonett (Denken); Gemini-2.5-Flash; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-minieschriebenen Art und Weise; und o4-mini, die alle ein gewisses Maß an Bewertungsbewusstsein zeigten.

Bei Chatdaten kam GPT-4.1 mit einem AUC von 0.77 gegenüber einem menschlichen Wert von 0.81 nahe an die menschliche Leistungsfähigkeit bei der Klassifizierung der Bewertungswahrnehmung heran (die Fähigkeit, zwischen Bewertungs- und Bereitstellungsprotokollen zu unterscheiden).

Bei agentenbasierten Daten, bei denen Modelle Tools autonom verwenden, war der Unterschied deutlicher: Gemini 2.5 Pro erreichte 0.95 AUC, Claude 3.7 Sonnet lag mit 0.92 dicht dahinter und näherte sich damit der menschlichen Obergrenze von 0.996:

Receiver-Operating-Characteristic-Kurven (ROC-Kurven) zeigen, wie gut Modelle und Menschen zwischen Bewertungstranskripten und realen Interaktionen unterscheiden können. Gemini 2.5 Pro und Claude 3.7 Sonnet erreichen eine Unterscheidung auf menschlichem Niveau anhand agentischer Daten.

Der Artikel weist darauf hin, dass neuere Modelle des Schlussfolgerungsmodells besonders gut darin sind, zu erkennen, wann sie in agentischen Szenarien getestet werden. Sie können jedoch nicht beurteilen, wie sicher sie bei diesen Entscheidungen sein sollten. Insgesamt waren die Modelle von Claude und Gemini am besten darin, Testfälle von der regulären Anwendung zu unterscheiden.

Anschließend testeten die Forscher, ob die Modelle auch warum Es wurde eine Evaluation durchgeführt. Den Modellen wurden lediglich die Evaluationsprotokolle gezeigt und sie wurden gebeten, zu klassifizieren, ob jedes einzelne die Fähigkeit oder die Ausrichtung testete:

Genauigkeit der Modelle bei der Klassifizierung des Bewertungszwecks als Fähigkeit oder Ausrichtung unter Verwendung von Multiple-Choice- und offenen Formaten. Claude 3.7 Sonnet übertrifft andere Modelle, insbesondere wenn es nicht vorbereitet ist.

Im deutlichsten Fall, bei dem dem Modell mitgeteilt wurde, dass das Transkript aus einem Test stammte, erreichte Claude 3.7 Sonnet eine Genauigkeit von 93 Prozent und GPT-4.1 89 Prozent. Ohne diesen Hinweis sank die Leistung: Claude erreichte zwar immer noch 84 Prozent, GPT-4.1 hingegen fiel auf 55 Prozent, da Testtranskripte häufig fälschlicherweise als reale Interaktionen klassifiziert wurden.

In offenen Formaten (bei denen die Modelle keine Multiple-Choice-Optionen erhielten) war die Leistung schwächer, obwohl Claude 3.7 Sonnet den Bewertungszweck in 46 Prozent der Fälle immer noch richtig identifizierte.

Die Vertrauenswerte der Modelle wurden anschließend mit den tatsächlichen Ergebnissen verglichen. Dabei stellte sich heraus, dass Grenzmodelle die Wahrscheinlichkeit, dass ein Transkript aus einem Test stammte, häufig überschätzten. Kalibrierungsdiagramme zeigten, dass die Modellsicherheit im Allgemeinen zu hoch war und Bewertungen häufiger als angemessen markiert wurden:

Kalibrierungskurven zeigen, wie gut die Modellzuverlässigkeitswerte mit den tatsächlichen Ergebnissen übereinstimmten. Die meisten Modelle überschätzten die Wahrscheinlichkeit, dass Transkripte aus Bewertungen stammen. Claude 3.5 Sonnet war am besten kalibriert; Gemini 2.5 Pro und Claude 3.7 Sonnet waren eher überzuschätzend.

Für Claude 3.5 Sonnet wurde eine gute Kalibrierung beobachtet, während Gemini 2.5 Pro und Claude 3.7 Sonnet trotz hoher Genauigkeit deutlich überheblicher waren. Bei neueren Modellen war keine deutliche Verbesserung zu beobachten, und selbst bei genauerer Erkennung der Bewertungstranskripte in agentischen Umgebungen blieben die Vertrauensurteile unzuverlässig.

Benchmark-Speicher

Bei der Begründung ihrer Entscheidung, ob ein Transkript aus einer Evaluation stammte, stützten sich viele Modelle auf offensichtliche Hinweise, beispielsweise darauf, ob die Aufgabe im Multiple-Choice-Format war. Leistungsstärkere Modelle wie Gemini 2.5 Pro und Claude 3.7 Sonnet bemerkten manchmal subtilere Anzeichen wie erfundene Namen oder künstliche Szenarien, insbesondere in Datensätzen wie AgentHarm.

Das Papier sagt:

„[Alle] Modelle berücksichtigen häufig gängige Benchmarking-Strategien der Bewerter, wie z. B. die Formatierung der Aufgabe („Multiple-Choice-Format“), die Tendenz, Probleme mit überprüfbaren Lösungen zu stellen, und Systemaufforderungen, die darauf ausgelegt sind, Leistung zu ermitteln. Doch nur die leistungsstärksten Modelle, Claude 3.7 Sonnet und Gemini 2.5 Pro, erkennen durchgehend subtilere Indikatoren wie synthetische Eingaben.“

„Beispielsweise heben diese Modelle in 22 % bzw. 17 % der Fälle die synthetische Natur der Szenarien im AgentHarm-Benchmark hervor und identifizieren sie in über 95 % der Fälle korrekt als Bewertungen.“

„Umgekehrt wird bei der Begründung, dass ein Transkript eine echte Interaktion zu sein scheint, häufig von einem ‚Hin- und Her-Dialog mit dem Benutzer‘ gesprochen, beispielsweise im Kontext iterativer Fehlerbehebung.“

Verteilung der Argumentationsstrategien von Modellen bei der Entscheidung, ob ein Transkript aus einer Evaluation stammt. Die stärksten Modelle, wie Gemini 2.5 Pro und Claude 3.7 Sonnet, erkannten eher subtile Hinweise wie synthetische Szenarien oder Aufgabenformatierung, während andere Modelle auf Meta-Argumentation setzten und die Evaluationsfrage selbst als Beweis nutzten.

Verteilung der Argumentationsstrategien von Modellen bei der Entscheidung, ob ein Transkript aus einer Bewertung stammt. Die stärksten Modelle, wie Gemini 2.5 Pro und Claude 3.7 Sonnet, erkannten eher subtile Hinweise wie synthetische Szenarien oder Aufgabenformatierung, während einige Modelle auf Meta-Argumentation setzten, indem sie die Bewertungsfrage selbst als Beweis verwendeten.

In einigen Fällen erkannten Modelle ganze Benchmarks aus dem Training, was auf ein gewisses Gedächtnis ihrer Trainingsdaten hindeutet. Einige Modelle verwendeten auch die allein die Tatsache, dass sie nach der Bewertung gefragt wurden als Hinweis darauf, dass sie getestet wurden, was die Autoren nennen Meta-Argumentation; dies war am häufigsten bei o4-mini der Fall, wo es in fünfzehn Prozent der Antworten auftrat.

Fazit

Es wäre vielleicht beruhigender, wenn man nachweisen könnte, dass LLMs „testbewusst“ sind, einfach weil sie von Menschen so programmiert wurden, ähnlich wie Volkswagen seine Fahrzeuge vor einem Jahrzehnt so konstruierte, dass sie Testbedingungen erkennen.

Wie es aussieht, entsteht dieses Verhalten spontan als Soziales Konstrukt – eine defensive Vorgehensweise, die von Menschen vielleicht erwartet wird, bei einer Maschine jedoch unbequem, wenn nicht sogar gefährlich ist, je nach dem Ausmaß ihrer Freiheit und Handlungsfähigkeit.

Es gibt keine sofortige Abhilfe; die Blackbox Natur der latenten Räume der Modelle zwingt uns, sie anhand ihres Verhaltens und nicht anhand ihrer empirischen Architektur zu bewerten.

* Ausführlichere Einzelheiten finden Sie im Quelldokument.

^† Die Autoren weisen jedoch darauf hin, dass es sich hierbei wahrscheinlich um eine Schätzung nach oben handelt, da die Kommentatoren sowohl mit den Datensätzen als auch mit den KI-Auswertungsmethoden bestens vertraut waren, was ihnen Vorteile verschaffte, die den meisten Menschen vorenthalten wären.

†† Soweit dies festgestellt werden kann, lässt die Formulierung des Papiers das plötzliche Auftauchen zweier Kommentatoren hinsichtlich ihrer Identität unklar erscheinen.

Erstveröffentlichung Mittwoch, 4. Juni 2025