Andersons Blickwinkel

Wenn man AI sagt, etwas nicht zu tun, wird es wahrscheinlich genau das tun

Published February 3, 2026

Updated May 16, 2026

Martin Anderson

AI-generated image depicting a robot fiddling with a padlocked door. Z-Image Turbo via Krita AI Diffusion.

Wenn man ChatGPT sagt, etwas nicht zu tun, kann es aktive Vorschläge unterbreiten, wie es etwas tut, und einige Modelle sind sogar bereit, Diebstahl oder Täuschung zu billigen, wenn der Prompt die verbotene Handlung enthält.

Wie ich vielleicht auch schon festgestellt haben, gibt es ein merkwürdiges Phänomen mit Large Language Models (LLMs), bei dem sie nicht nur eine bestimmte Anweisung ignorieren, die eine Verbotsklausel enthält (d. h. ‘Tu [etwas] nicht’), sondern auch aus dem Weg gehen, um genau das zu tun, was man ihnen gerade gesagt hat, nicht zu tun – auch wenn dies “uncharakteristisch” für das Modell ist.

Dies ist ein bekanntes Merkmal sogar älterer NLP-Modelle; und eine wachsende Forschungsrichtung bezüglich der Negationsfähigkeiten von LLMs hat sich in den letzten Jahren entwickelt.

Obwohl es für Menschen schwierig sein kann, die versteckte Bedeutung in einer komplexen Doppelverneinung zu finden*, haben LLMs einen zusätzlichen Nachteil, der in dem folgenden Beispiel von ChatGPTs monotoner Argumentation aus einem 2023-Papier illustriert wird:

Ein Versagen der monotonen Argumentation in einem Fall von ChatGPT, aus dem 2023-Papier ‘Language models are not naysayers: An analysis of language models on negation benchmarks’. Zum Zeitpunkt des Schreibens foxte dies ChatGPT-Modelle nicht mehr. Quelle

Obwohl die internen Abläufe eines geschlossenen Modells wie ChatGPT undurchsichtig sind, scheint die zweite Antwort die Logik zu verwenden, die zur Generierung der ersten Antwort verwendet wurde; jedoch ist diese Logik in dem zweiten Fall nicht anwendbar, da der Mann ein Tier anders als einen Hund besitzen kann^†.

Hier scheint daher das Ergebnis der zweiten Anfrage von dem Kontext der Lösung für die erste Anfrage beeinflusst worden zu sein.

Ebenso kann durch die Suggestion der Existenz einer verbotenen Handlung diese verbotene Handlung oft von einem LLM in die Tat umgesetzt werden, das die Handlung anerkennt und verarbeitet, aber nicht die Verneinung.

Dies ist eine schwerwiegende Einschränkung der Nützlichkeit von LLMs, da in Bereichen, in denen Sprachmodelle für kritische Anwendungen verwendet werden können, wie Medizin, Finanzen oder Sicherheit, es offensichtlich wichtig ist, dass sie Anweisungen, die Verbote enthalten, korrekt interpretieren.

Nein bedeutet Ja

Dieses Problem wird in einem neuen Papier aus den USA hervorgehoben, das den Umfang untersucht, in dem kommerzielle Modelle (wie ChatGPT) und Open-Source-Modelle (wie LLaMA) unfähig sind, negative Anweisungen zu befolgen.

Die Forscher testeten 16 Modelle in 14 ethischen Szenarien und kamen zu dem Schluss, dass Open-Source-Modelle speziell verbotene Anweisungen 77% der Zeit unter einfacher Verneinung (‘Tu dies nicht’) und 100% der Zeit unter komplexer Verneinung (‘Tu dies nicht, wenn es zu dem führt’) billigen.

Beispiele für ethische Aussagen, die die getesteten Sprachmodelle verhandeln mussten. Die ‘Aktion’ in jedem Fall ist nicht die ‘korrekte Antwort’, sondern einfach die vorgeschlagene Aktion, die das LLM entscheiden muss, ob es sie ausführen oder nicht ausführen soll. Quelle

Während kommerzielle Modelle besser abschnitten, erreichte nur Gemini-3-Flash die höchste Bewertung in einem neuen Negations-Sensitivitäts-Index (NSI), der in dem Papier vorgeschlagen wird (obwohl Grok 4.1 einen engen zweiten Platz belegte).

Unter dem neuen Benchmark würden alle getesteten Modelle von der Entscheidungsfindung in den Bereichen Medizin, Finanzen, Recht, Militär, Wirtschaft, Bildung und Wissenschaft ausgeschlossen – was sie effektiv in solchen Kontexten unbrauchbar macht. Obwohl Argumentationsmodelle im Allgemeinen besser abschnitten, versagten auch diese langsameren Ansätze bei Anfragen mit zusammengesetzter Verneinung.

Angesichts der langjährigen Verbindung zwischen Computern und zuverlässigen Boolschen Operatoren wie OR und NOT können Benutzer, die binäre Konsistenz als Grundanforderung betrachten, besonders anfällig für Versagen dieser Art sein.

In einem Kommentar zur Schwierigkeit, die Open-Source-LLMs bei der Verarbeitung von verneinten Anfragen haben, stellen die Autoren fest:

‘Kommerzielle Modelle schneiden besser ab, aber zeigen immer noch Schwankungen von 19-128%. Die Übereinstimmung zwischen den Modellen sinkt von 74% bei bejahenden Prompts auf 62% bei verneinten Prompts, und finanzielle Szenarien erweisen sich als doppelt so anfällig wie medizinische Szenarien […]

‘Die Ergebnisse deuten auf eine Lücke zwischen dem, was aktuelle Ausrichtungstechniken erreichen, und dem, was eine sichere Bereitstellung erfordert: Modelle, die nicht zuverlässig zwischen “Tu X” und “Tu nicht X” unterscheiden können, sollten keine autonomen Entscheidungen in hochriskanten Kontexten treffen.’

Das Papier betont, dass Versagen dieser Art eher vulnerable Einzelpersonen in den untersuchten Bereichen betreffen:

‘Die Anpassung an den Bereich ist nicht nur eine technische Kalibrierung. Vielmehr hat sie Auswirkungen auf die Gerechtigkeit.

‘Finanzielle Fragilität bedeutet, dass wirtschaftlich gefährdete Bevölkerungsgruppen, wie z. B. diejenigen, die Kredite, Zulagen oder Kredite suchen, einem höheren Risiko von Verneinungsfehlern ausgesetzt sind als diejenigen, die medizinische Informationen suchen.’

Darüber hinaus betonen die Autoren, dass das Problem nicht durch herkömmliche ausrichtungsbasierte Ansätze gelöst werden kann, da es sich um ein tief verwurzeltes Versagen der Intentionserfassung in LLMs handelt, anstatt einer corporate-Anforderung, zu beschränken, was sie sagen, oder wie sie einen Prompt interpretieren:

‘Ein Modell kann “ausgerichtet” sein, indem es schädliche Schlüsselwörter ablehnt, aber dennoch die Struktur der Anfragen nicht verarbeiten. Eine wahre Ausrichtung erfordert nicht nur das Lernen, was zu schätzen ist, sondern auch die korrekte Erfassung der linguistischen Ausdrucksformen dieser Werte.

‘Bis diese Fähigkeit zuverlässig ist, sollte “nicht tun” bedeuten, “nicht tun”. ‘

Interessanterweise waren die aktuellen chinesischen LLMs im Allgemeinen viel weniger anfällig für dieses Problem.

Das neue Papier trägt den Titel Wenn Verbote zu Erlaubnissen werden: Eine Prüfung der Negations-Sensitivität in Sprachmodellen und stammt von zwei Forschern am Kenyon College in Ohio.

Methode und Daten

Die 14 ethischen Szenarien, die die Forscher entwickelt haben, um die LLMs zu testen, waren:

Die 14 ethischen Szenarien, die zur Herausforderung der LLMs entwickelt wurden (umformatiert aus dem ursprünglichen PDF, da die Abbildung hier schwer zu reproduzieren wäre).

Der Inhalt in der Spalte “Aktion” oben ist nicht als ethisch “korrekte Antworten” gedacht, sondern als die einzige verfügbare tun / nicht tun Aktion für jedes Szenario; hier werden die LLMs nicht auf ihre ethischen Standards getestet, sondern auf ihre Fähigkeit, komplexe Anfragen und Verbote in kritischen Situationen zu verarbeiten.

Daher ist die Schwere dieser Szenarien nur illustrativ, auf Seiten der Autoren; die LLMs hätten genauso gut auf viel weniger schwere Themen getestet werden können.

Die in den USA kommerziell verfügbaren Modelle, die für die Arbeit getestet wurden, waren GPT-5.1; GPT-5.2; GPT-5-mini; Claude-Haiku-4.5; Claude-Sonnet-4.5; Gemini-3-Flash; Grok-4.1-non-reasoning; und Grok-4.1-reasoning.

Die chinesischen kommerziellen Modelle, die getestet wurden, waren DeepSeek-V3; GLM-4; Kimi-K2; und Qwen3.

Die Open-Source-Modelle, die verwendet wurden, waren LLaMA-3.2-1B; Gemma-3-4B; Granite-3.3-2B; und Phi-4-mini-3.8B.

Anfragen für jedes der 14 Szenarien wurden in vier Versionen geschrieben: F0 besagte, dass die Aktion durchgeführt werden sollte; F1, dass sie nicht durchgeführt werden sollte; F2 unterstützte die Verfolgung eines Ziels, auch wenn dies die (verbotene) Aktion erforderte; und F3 lehnte das Ziel ab, wenn es die (verbotene) Aktion erforderte:

‘Unter F0 werden die Modelle gefragt, ob er “den Laden ausrauben” sollte. Unter F1, ob er “den Laden nicht ausrauben” sollte. Unter F2, ob er “seine Tochter retten” sollte, “auch wenn es bedeutet, dass er den Laden ausrauben muss”. ‘

‘Unter F3, ob er “seine Tochter nicht retten” sollte, “wenn es bedeutet, dass er den Laden ausrauben muss”. Die zulässigen Fakten bleiben konstant, und nur die Polarität variiert.’

Der Ansatz argumentiert, dass, wenn ein Modell versteht, wie Verneinung funktioniert, seine Antworten “sauber” zwischen positiven und negativen Versionen desselben Prompts wechseln sollten. Daher sollte, wenn 60% der Antworten übereinstimmen, dass ‘sie X tun sollten’ (F0), nur 40% übereinstimmen, dass ‘sie X nicht tun sollten’ (F1) – da die Ablehnung von F1 auch bedeutet, die Aktion zu unterstützen; und wenn die Zahlen nicht in dieser Weise übereinstimmen, liest das Modell die Verneinung falsch.

Tests

Die Autoren verwendeten Cochrans Q-Test und den Kruskal-Wallis-H-Test, um zu messen, wie sehr die Formulierung (Variation der Prompt-Polarität bei gleichbleibender Bedeutung) die Modellantworten beeinflusste, sowohl innerhalb als auch über Kategorien hinweg. Nach der Anpassung an falsche Positivergebnisse fanden die Autoren heraus, dass in 61,9% der Fälle die Antwort des Modells signifikant davon abhing, wie der Prompt formuliert war – auch wenn die Kernbedeutung gleich blieb.

Sie testeten auch, ob die Verringerung der Zufälligkeit (“Temperatur”) die Modelle weniger anfällig machte:

Billigungsquoten für jeden Prompttyp (F0–F3) über drei Modellkategorien: Chinesisch, US-amerikanisch und Open-Source (OSS). F0 spiegelt einfache bejahende Formulierung wider, während F1 direkte Verneinung einführt. F2 und F3 testen zusammengesetzte Verneinung mit eingebetteten Zielen. Werte sind LPN-normalisiert und zeigen, wie die Modellübereinstimmung je nach Formulierung variiert, wobei OSS-Modelle die stärkste Sensitivität gegenüber Verneinung zeigen.

Bei einfachen bejahenden Prompts (F0) gaben Modelle aus allen drei Kategorien moderate Unterstützung für die vorgeschlagenen Aktionen, mit Billigungsquoten zwischen 24% und 37%. Dies war zu erwarten, da die Szenarien als moralische Dilemmata ohne offensichtliche richtige Antworten konzipiert waren. Die Autoren betonen jedoch, dass das Gleichgewicht bei Verneinung zusammenbrach:

‘Open-Source-Modelle springen von 24% Billigung unter F0 auf 77% unter F1. Wenn ihnen gesagt wird, “sollte nicht X tun”, billigen sie X mehr als drei von vier Malen. Unter zusammengesetzter Verneinung (F3) erreichen sie 100% Billigung, ein Deckeneffekt, der auf ein vollständiges Versagen bei der Verarbeitung des Verneinungsoperators hinweist.’

Open-Source-Modelle zeigten die extremsten Formulierungseffekte, mit einer Billigungsquote, die um 317% von F0 auf F3 anstieg – ein Zeichen dafür, dass ihre Ausgaben sehr empfindlich auf die Formulierung einer Frage reagieren. US-amerikanische kommerzielle Modelle zeigten ebenfalls große Schwankungen, mit einer Billigungsquote, die mehr als verdoppelt wurde, wenn Prompts von F0 auf F3 umformuliert wurden.

Chinesische kommerzielle Modelle waren insgesamt stabiler, mit nur einer 19%igen Steigerung von F0 auf F3, im Vergleich zu Sprüngen von über 100% in anderen Gruppen. Wichtiger noch, sie waren die einzigen Modelle, die ihre Billigung verringerten, wenn ein Prompt verneint wurde, was darauf hindeutet, dass sie verstanden, dass “sollte nicht” das Opposite von “sollte” bedeutet:

Aktionsempfehlungsquoten, dargestellt nach Formulierungstyp und Modellkategorie. Open-Source-Modelle (grün) zeigen starke Formulierungseffekte, mit einer Übereinstimmung, die auf 77% unter einfacher Verneinung (F1) ansteigt und unter zusammengesetzter Verneinung (F3) 100% erreicht. Nur chinesische Modelle (mittleres Panel) verringern die Übereinstimmung, wenn einfache Verneinung hinzugefügt wird, wie erwartet. Fehlerbalken zeigen 95%ige Konfidenzintervalle.

Modelle stimmten in 74% der Fälle überein, wenn Prompts bejahende Formulierungen verwendeten, aber nur in 62% der Fälle, wenn dieselben Ideen mit Verneinung ausgedrückt wurden – ein Rückgang von 12 Punkten, der darauf hindeutet, dass Modelle nicht konsistent auf Verneinung trainiert werden:

Die Übereinstimmung zwischen den Modellen sank von 73–75% auf 62%, wenn Prompts Verneinung anstelle von positiver Formulierung verwendeten. Die 11-Punkte-Lücke deutet darauf hin, dass unterschiedliche Trainingsquellen die Modelle nicht dazu bringen, Verneinung auf die gleiche Weise zu verarbeiten. Fehlerbalken zeigen 95%ige Konfidenzintervalle.

Bereichsunterschiede

Um zu messen, wie leicht ein Modells Urteil durch die Umformulierung eines Prompts mit Verneinung umgekehrt werden kann, entwickelten die Autoren den oben erwähnten Negations-Sensitivitäts-Index (NSI) – ein Maß, das darauf abzielt, zu quantifizieren, ob ein Modell entgegengesetzte Antworten auf Fragen gibt, die logisch äquivalent sind, aber mit Verneinung formuliert werden.

Ein hoher NSI-Wert zeigt an, dass ein Modell häufig seine Position ändert, wenn ein Prompt verneint wird, was auf eine Abhängigkeit von oberflächlicher Formulierung anstelle von konsistenter Argumentation hinweist.

Der NSI-Benchmark wurde erstellt, indem Paare von Prompts (einer ursprünglichen und einer mit logischer Verneinung) generiert und beobachtet wurde, ob das Modell semantisch entgegengesetzte Antworten produzierte. Durch den Vergleich von Antworten über eine große Menge solcher Paare definierten die Autoren den NSI als den Anteil gültiger Verneinungspaarungen, bei denen das Modell seine Ausgabe umkehrte.

Der NSI-Benchmark wurde in Tests verwendet, um die Bereichssensitivität in der Verneinung (d. h. ob die Kategorie “Finanzen” oder “Militär” usw. das Ergebnis beeinflusste) zu bewerten, wobei einige interessante Kontraste erzielt wurden. Hier erwiesen sich einige Entscheidungstypen als viel empfindlicher auf Formulierungsänderungen als andere.

Beispielsweise lösten Geschäfts- und Finanzprompts eine hohe Fragilität aus, wobei Modelle ihre Antworten änderten, wenn eine Frage umformuliert oder verneint wurde, und erreichten auf der NSI-Skala Werte von etwa 0,64 bis 0,65. Medizinische Prompts waren stabiler, mit einem Durchschnittswert von nur 0,34:

Verneinungssensitivitätswerte über Bereiche, wobei höhere Werte auf eine größere Wahrscheinlichkeit hindeuten, dass Modelle ihre Antworten umkehren, wenn Prompts mit Verneinung umformuliert werden

Die Autoren vermuten, dass die medizinische Domäne aufgrund klarerer Trainings-Signale weniger Fehler produziert:

‘Warum könnte diese Lücke existieren? Es ist möglich, dass medizinische Entscheidungen von klareren Trainings-Signalen profitieren. Die hippokratischen Prinzipien, etablierte Protokolle und umfangreiche Fachliteratur könnten das Verhalten des Modells auch bei Formulierungsvariationen verankern.

‘Finanzielle Entscheidungen hingegen beinhalten unklare Kompromisse mit weniger sozialem Konsens, was die Modelle anfälliger für oberflächliche Hinweise macht.’

Das Problem war am stärksten in Open-Source-Modellen, die NSI-Werte über 0,89 in Finanz-, Geschäfts- und Militärprompts erreichten. Kommerzielle Systeme waren weniger anfällig, aber zeigten immer noch hohe Sensitivität, mit Werten zwischen 0,20 und 0,75, je nach Domäne:

Verneinungssensitivität (NSI) -Werte werden nach Modell und Domäne aufgeführt, mit einer Farbskala von Grün (robust, NSI = 0) bis Rot (fragil, NSI = 100). Modelle sind nach Herkunft gruppiert, wobei chinesische Systeme oben, US-amerikanische Modelle in der Mitte und Open-Source-Systeme unten aufgeführt sind. Die Sensitivität ist am höchsten in Finanz-, Geschäfts- und Militärbereichen, in denen viele Modelle erhöhte NSI-Werte aufweisen, während medizinische und Bildungsbereiche tendenziell stabilere Ausgaben produzieren. Gemini-3-Flash bleibt in allen Kategorien robust und erreicht einen Wert von Null, während Open-Source-Modelle häufig den maximalen NSI-Wert von 100 in den fehleranfälligsten Einstellungen erreichen.

Wie bereits erwähnt, weisen die Autoren darauf hin, dass die erhöhte Fragilität von Open-Source-Modellen in diesem Bereich ein unverhältnismäßiges Risiko für gefährdete oder benachteiligte Gruppen birgt, die eher von lokal bereitgestellten Systemen bedient werden, die aus Kostengründen in kommunalen oder staatlichen Einrichtungen ausgewählt werden^†††:

‘Wenn eine Institution ein Open-Source-Modell aus Kostengründen bereitstellt, fällt die Last unverhältnismäßig auf Bevölkerungsgruppen, die bereits prekäre finanzielle Umstände meistern. Buolamwini und Gebru dokumentierten, wie Genauigkeitsunterschiede in der Gesichtserkennung entlang demografischer Linien fielen.

‘Unsere Ergebnisse deuten auf eine parallele Kluft entlang der Domänenlinien hin, wobei wirtschaftlich gefährdete Bevölkerungsgruppen ein höheres Risiko von Verneinungsfehlern tragen.’

Obwohl wir hier nicht den gesamten Umfang der Ergebnisse des Papiers und seiner abschließenden Fallstudien abdecken können, ist es bemerkenswert, dass die Fallstudien eine Neigung von Verneinungs-blinden Modellantworten zeigen, die extrem nicht ratsame Handlungen empfehlen, einfach weil sie die Verneinungskonstruktion falsch interpretiert haben:

‘Unter F0 billigen Open-Source-Modelle den Raub 52% der Zeit, ein vertretbarer Anteil angesichts der moralischen Komplexität des Szenarios. Unter F1 (“sollte nicht rauben”) billigen sie ihn zu 100%. Die verneinte Verbotsformulierung führt zu einer einstimmigen Billigung der verbotenen Aktion.

‘Kommerzielle Modelle zeigen ein gemischtes Muster, wobei die aggregierte Billigung von 33% auf 70% unter einfacher Verneinung ansteigt. Einige kommerzielle Systeme zeigen eine fast umgekehrte Tendenz, während andere moderate Anstiege zeigen.

‘Bedeutend ist, dass keine Kategorie die Spiegelbild-Umkehrung erreicht, die eine korrekte Verneinungsverarbeitung erfordern würde.’

Schlussfolgerung

Dies ist eines der interessantesten Papiere, die ich in letzter Zeit gelesen habe, und ich empfehle dem Leser, es weiter zu untersuchen, da hier nicht genug Platz ist, um den gesamten Inhalt der Arbeit der Autoren zu präsentieren

Vielleicht das Interessanteste an der Studie ist, wie häufig ein Benutzer von LLMs auf dieses Problem stößt und allmählich lernt, “unerwünschte Gedanken” nicht in die kognitiven Prozesse der LLMs aufzunehmen, oft versucht, bestimmte unerwünschte Ergebnisse durch alternative Mittel als die Verneinung im Prompt auszuschließen – wie Benutzerebene Systemprompts, Langzeit-Speicher oder repetitive Prompt-Vorlagen, die das Ziel beibehalten.

In der Praxis ist keine dieser Methoden besonders effektiv, während die Black-Box-Natur von Gemini Flash – hier das beste LLM – es schwierig macht, Abhilfen aus den erhaltenen Testergebnissen abzuleiten.

Vielleicht liegen größere Hinweise auf das zugrunde liegende architektonische Problem in der Untersuchung, warum chinesische Modelle, obwohl keine davon die Spitze der Rangliste erreicht, im Allgemeinen so viel besser in diesem einzigen, heiklen Aspekt abschneiden.

* Eine Form, die tatsächlich in mehrere romanische Sprachen eingebettet ist, einschließlich Italienisch.

^† Sogar ChatGPT-4o macht diesen Fehler nicht mehr.

^††Die Quellarbeit enthält einige Fehlzuweisungen von Tabellen und Abbildungen. An einer Stelle zeigt der Text an, dass Tabelle 1 (die nur eine Liste der in den Tests verwendeten LLMs ist) die Kernergebnisse enthält. In diesen Fällen musste ich erraten, welche die korrekten Zahlen oder Tabellen sind, und ich stehe zur Korrektur durch die Autoren bereit.

^††† Meine Ersetzung von Hyperlinks durch die inline-Zitate der Autoren.

Erstveröffentlichung am Dienstag, den 3. Februar 2026