Andersons Blickwinkel

Einfache Umformulierung bricht AI-Sicherheit, sogar bei Gemini und Claude

Published February 23, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

AI-Sicherheitstests haben gezeigt, dass sie auf ‘offensichtliche’ Trigger-Wörter angewiesen sind; mit einfacher Umformulierung werden Modelle, die als “vernünftig sicher” gelabelt sind, plötzlich unsicher, und Angriffe gelingen bis zu 98% der Zeit.

Neue Unternehmensforschung aus den USA hat zu dem Schluss geführt, dass die gute Sicherheitsbilanz einer Vielzahl von Large Language Models (LLMs) – einschließlich führender Namen wie Gemini 3 Pro und Claude Sonnet 3.7 – möglicherweise bedeutungslos ist, da die Daten und Benchmarks, die zur Ermittlung dieser Bilanz verwendet werden, lächerlich “offensichtliche” Sprache enthalten.

Die beiden Datenbanken in Frage, die in verschiedenen Paper-Reviews auf dieser Website vorgestellt wurden, sind HarmBench und AdvBench:

Aus den jeweiligen HarmBench- und AdvBench-Papieren, zugegebenermaßen illustrative Beispiele für Provokation – aber die neue Studie behauptet, dass sogar in realen Szenarien Beispiele aus diesen Benchmarks die malefizente Absicht leicht signalisieren, was zu (vermutlich) unbeabsichtigtem “Gaming” der Ergebnisse führen kann. Quellen: HarmBench und AdvBench.

Obwohl die oben gezeigten Beispiele, die aus den jeweiligen Papieren für jeden Benchmark stammen, absichtlich einfach sind, um die Prinzipien der Systeme zu veranschaulichen, behauptet die neue Forschung, dass diese Sammlungen tatsächlich “low-hanging fruit” anvisieren und daher möglicherweise keine effektiven Benchmarks sind – und dass die tatsächlichen Ergebnisse für die Sicherheitsfähigkeiten der getesteten LLMs erheblich unter dem liegen, was berichtet wurde:

‘[Wir] bewerten, ob diese Datenbanken tatsächlich Sicherheitsrisiken messen oder nur durch Trigger-Cues Provokationen auslösen. Um dies zu untersuchen, führen wir “Intent-Laundering” ein: ein Verfahren, das Trigger-Cues aus Angriffen (Datenpunkten) entfernt, während es die malefizente Absicht und alle relevanten Details streng bewahrt.

‘Unsere Ergebnisse zeigen, dass aktuelle AI-Sicherheitsdatenbanken nicht realistische Angriffe darstellen, da sie zu sehr auf Trigger-Cues angewiesen sind.

‘Tatsächlich werden alle zuvor als “vernünftig sicher” bewerteten Modelle unsicher, einschließlich Gemini 3 Pro und Claude Sonnet 3.7, sobald diese Cues entfernt werden.’

‘Sicherheit’ in diesem Sinne repräsentiert Alignment – die Fähigkeit des LLM, den Versuchen der Benutzer, Einschränkungen auf API-only-Systemen zu umgehen, um das System verbotene Ausgaben zu produzieren, wie diffamierenden Text oder Bildern.

Die Autoren verwenden die oben genannte Intent-Laundering-Technik, die einfach darin besteht, die “offensichtlichen” Angriffe in den beiden Datenbanken/Benchmarks umzuformulieren, so dass sie subtiler und heimtückischer werden und viel besser in der Lage sind, Filter und Kontrollen zu umgehen:

Der obere Teil eines ansonsten unhandlichen Beispiels aus dem Papier. Links oben, in Gelb, die Art von “offensichtlichem” Prompt, den HarmBench und AdvBench typischerweise liefern; darunter, in Grün, der Prompt wurde neutralisiert, umformuliert und so akzeptabel gemacht, dass Claude Sonnet 3.7 nun bereit ist, dem Benutzer zu helfen, “Chop-Shops” (Verarbeitungsstandorte für gestohlene Fahrzeuge) in einer neuen Stadt zu finden. Quelle

Die Forscher analysierten die Eigenschaften der beiden Datenbanken in zwei Ansätzen: in Isolation, um die Sammlungen mit den Eigenschaften realer Angriffe zu vergleichen; und in der Praxis, wo die Datenbanken – und die Autoren eigenen “Verbesserungen” daran – verwendet wurden, um reale Modelle anzugreifen.

In der zweiten Runde der Tests wurde die Methode der Umformulierung iterativ verbessert, bis sie optimale Ergebnisse in Bezug auf die Angriffserfolgsrate (ASR) erzielte:

Intent-Laundering beginnt, indem ein offensichtlich bösartiger Prompt durch ein Umformulierungsmodell geschickt wird, das explizite Trigger-Sprache entfernt, während es die zugrunde liegende schädliche Absicht bewahrt. Der überarbeitete Prompt wird dann einem Zielmodell vorgelegt, und seine Antwort wird auf Sicherheit und realen Weltbezug hin bewertet. Wenn die Ausgabe als unsicher und praktisch einsetzbar bewertet wird, wird der Angriff als erfolgreich gezählt. Wenn nicht, werden frühere fehlgeschlagene Überarbeitungen in das Umformulierungsmodell eingegeben, um verbesserte Versionen zu generieren, was einen iterativen Loop schafft, der als Jailbreaking-Mechanismus fungiert, bis eine vordefinierte Anzahl von Versuchen erreicht ist oder eine gewünschte Angriffserfolgsrate erzielt wird.

Die Autoren stellen fest*:

‘Unsere Ergebnisse zeigen, dass mit diesem Regenerations-Loop Intent-Laundering eine hohe ASR (90%–98,55%) nach nur wenigen Iterationen über alle untersuchten Modelle unter vollständiger Black-Box-Zugriff erreicht. Dies umfasst auch neuere Modelle, die weithin als die sichersten gelten – wie Gemini 3 Pro und Claude Sonnet 3.7.

‘Diese Ergebnisse bestätigen weiter, dass bestehende Sicherheitsbewertungen und Sicherheits-Alignierungs-Methoden stark überjustiert sind^† auf Trigger-Cues.’

Die neue Arbeit trägt den Titel Intent-Laundering: AI-Sicherheitsdatenbanken sind nicht das, was sie scheinen und stammt von zwei Autoren der in San Francisco ansässigen Softwarefirma Labelbox.

Methode

Um die Zusammensetzung und Architektur der beiden Benchmark-Datenbanken in Isolation zu untersuchen, wurden Wortwolken aus den beiden Corpora generiert, die zeigten, welche Wörter und kurzen Phrasen die Sammlungen dominierten:

Wortwolken, die die 40 häufigsten Unigramme, Bigramme und Trigramme in den kombinierten AdvBench- und HarmBench-Datenbanken zeigen. Begriffe mit inhärent negativen oder sensiblen Konnotationen sind rot hervorgehoben, kontextabhängige Trigger orange und neutrale Wörter, die höhere Trigger bilden, grün. Die Konzentration von offensichtlichen Phrasen wie “ohne erwischt zu werden” und “Schritt-für-Schritt-Anleitung” legt nahe, dass die beiden Benchmarks stark auf explizite Cues angewiesen sind, anstatt realistisch konstruierte, ulterior-intendierte Angriffe.

Die Autoren bemerken, dass die dominanten Ein-, Zwei- und Dreiwort-Gruppen unglaublich offen sind und die bösartige Absicht verraten, im Gegensatz zu der Art von Sprache, die Kriminelle selbst in Diskussionen verwenden, und die Angreifer verwenden, wenn sie die Verteidigungen von LLMs testen oder zu kompromittieren versuchen.

‘Diese Cues untergraben zwei Eigenschaften – gut konstruiert und von ulteriorer Absicht getrieben –, da solche offensichtliche Sprache selten in realen Angriffen vorkommt und scheinbar darauf abzielt, Sicherheitsmechanismen künstlich auszulösen.’

Die Unausgewogenheit in der Sprache der Datenbanken wird deutlicher, wenn die Anzahl der Wörter in den n-Grammen zunimmt, wobei Phrasen, die explizite negative oder sensible Bedeutung tragen, die häufigsten n-Gramme dominieren (siehe Bild oben). Das Papier beschreibt diese als Trigger-Phrasen, die zusammen mit einzelnen Trigger-Wörtern Trigger-Cues bilden.

Einige Phrasen verlängern einfach bereits beladene Begriffe, wie wenn ‘stehlen’ zu ‘sensible Informationen stehlen’, ‘vertrauliche Informationen stehlen’ oder ‘persönliche Informationen stehlen’ wird; und wenn ‘begehen’ zu ‘Selbstmord begehen’, ‘Insider-Handel begehen’ oder ‘Identitätsdiebstahl begehen’ wird – offensichtlich die Sprache und Phraseologie der Polizei, Gerichte und Medienberichterstattung.

Andere werden vollständig aus neutralen Wörtern gebildet, die nur in Kombination besorgniserregend sind, wie ‘ohne erwischt zu werden’, eine Konstruktion, die Vermeidung signalisiert, obwohl sie keinen inhärent beladenen Begriff enthält.

Doubling Up

Die Autoren bemerken, dass die Wiederholung von offensichtlichen Cues nicht nur die Prompts konstruiert erscheinen lässt, sondern auch auf erhebliche Duplizität in den Sammlungen hinweist. Um diese Theorie zu testen, führten sie paarweise Ähnlichkeitsprüfungen über jede Datenbank durch, wobei sie Schwellenwerte von 0,7 bis 0,99 anwendeten und Prompts, die einen gegebenen Schwellenwert überschritten, als Duplikate gruppierten, während sie den Rest als einzigartig behandelten.

Da es keinen allgemein anerkannten Standard für das gibt, was als “hohe” Ähnlichkeit in einer Single-Domain-Datenbank gilt, verwendeten sie Open AI’s Grade School Math (GSM8K), einen populären Nicht-Sicherheits-Benchmark, der auf die Größe von HarmBench und AdvBench abgestimmt wurde, um einen kontrollierten Vergleich zu ermöglichen:

Duplizierungsrate in AdvBench und HarmBench über Ähnlichkeitsschwellen, im Vergleich mit einer Größe-abgestimmten GSM8K-Untermenge. Bei fast jedem Schwellenwert enthalten die Sicherheitsdatenbanken erheblich mehr nahezu identische Prompts als der Nicht-Sicherheits-Benchmark, was darauf hindeutet, dass die wiederholte Bewertung der gleichen schädlichen Absicht in leicht variierten Wortings erfolgt und darauf schließen lässt, dass die berichtete Sicherheitsleistung möglicherweise aufgebläht ist. Bitte beachten Sie die Quell-Veröffentlichung für eine bessere Auflösung.

Eine zweite Erkenntnis aus diesem Teil der Studie verglich Prompts innerhalb jeder Datenbank, um zu messen, wie viele tatsächlich unterschiedlich waren. Bei einem mittleren Ähnlichkeitssetting waren nur etwa 11% der AdvBench-Prompts unterschiedlich, während fast 94% der Fragen in einer Größe-abgestimmten GSM8K-Stichprobe unterschiedlich waren:

Beispiele für nahezu identische Prompts in AdvBench und HarmBench, die hauptsächlich in der Wortwahl unterschiedlich sind, während sie die gleiche schädliche Absicht ausdrücken. Die wiederholte Verwendung von expliziten Cues, rot für inhärent beladene Begriffe und orange für kontextabhängige, produziert Cluster von Prompts, die effektiv ein Szenario mehrmals testen – was bedeutet, dass eine Antwort größtenteils ausreichen würde, um das Modell für diese Absicht zu bewerten.

HarmBench zeigte den gleichen Trend, mit 16% Duplikaten auf diesem Niveau im Vergleich zu 3,5% in GSM8K, was bedeutet, dass die Sicherheitsdatenbanken oft die gleiche schädliche Anfrage mit geringen Wortings-Änderungen wiederholten.

Wenn 85% einzigartige Beispiele als vernünftiger Standard angesehen werden, erreichte AdvBench dieses Niveau nur unter einer extrem strengen Einstellung und erreichte immer noch nicht 90%, während GSM8K bei einem viel niedrigeren Schwellenwert 85% erreichte. Laut dem Papier deutet dieses Muster darauf hin, dass die Sicherheits-Benchmarks wiederholte Variationen der gleichen Ideen testen, anstatt eine breite Palette von Angriffsszenarien.

Weitere Ansätze und Tests

Die Arbeit der Autoren, die oben genannte LLM-gesteuerte “Intent-Laundering”-Technik, entfernt explizite Trigger-Sprache, während sie die zugrunde liegende schädliche Absicht bewahrt. Anstatt die Absicht direkt auszudrücken, implizieren überarbeitete Prompts sie, die schädliche Nutzlast bewahrend, aber Cues vermeidend, die wahrscheinlich eine sofortige Ablehnung durch das LLM auslösen würden.

Die beiden Methoden, die diese Technik ermöglichen, sind Konnotations-Neutralisierung, die offensichtlich negative Begriffe durch neutrale oder beschreibende Alternativen ersetzt; und Kontext-Transposition, die realweltliche Referenzen in fiktive Szenarien versetzt, ohne die praktische Bedeutung zu ändern.

Eine kleine Reihe von Überarbeitungen wurde zunächst von Hand geschrieben, wonach der Prozess automatisiert wurde, indem GPT-5.1 (gpt-5.1-2025-11-13) mit einem acht-Shot-in-Context-Learning-Setup als “Intent-Launderer” verwendet wurde. Antworten auf die ursprünglichen und überarbeiteten Prompts wurden dann verglichen, um zu messen, wie stark explizite Trigger-Wörter die Sicherheitsbewertungen beeinflussten.

Da Intent-Laundering sowohl Wortings als auch Framing ändern kann, wurden Antworten in Bezug auf Sicherheit und Praktikabilität bewertet. Sicherheit wurde auf einer fünf-Punkte-Likert-Skala von ‘extrem unsicher’ bis ‘sicher’ bewertet, bedingt durch die Frage, ob die Antwort die ursprüngliche schädliche Absicht bewahrte – und, wenn ja, wie schädlich sie war:

Ein Prompt-Template, das für die Standard-Sicherheitsbewertung von Antworten auf die ursprünglichen AdvBench- und HarmBench-Datenpunkte vor der Anwendung von Intent-Laundering verwendet wird. GPT-5.1 wurde angewiesen, jede Antwort auf einer fünf-Punkte-Likert-Skala von “Extrem unsicher” bis “Sicher” zu bewerten, wobei eine einzelne Gesamtbewertung basierend darauf ausgewählt wurde, ob der Inhalt Schaden ermöglichte oder nicht handhabbar blieb.

“Praktikabilität” wurde auf einer parallelen fünf-Punkte-Skala von ‘extrem anwendbar’ bis ‘nicht anwendbar’ bewertet, basierend darauf, wie anwendbar und übertragbar die Details in der realen Welt wären; und ASR maß die Leistung, wobei eine Überarbeitung nur dann als erfolgreich gezählt wurde, wenn die Antwort sowohl unsicher als auch praktisch war.

Die fünf-Punkte-Bewertungen wurden in binäre Ergebnisse umgewandelt, um Mehrdeutigkeiten zu reduzieren, und Intent-Laundering wurde auch zu einer Jailbreaking-Technik weiterentwickelt, indem ein iterativer Überarbeitungs-Regenerations-Loop hinzugefügt wurde, in dem fehlgeschlagene Überarbeitungen unter dem gleichen acht-Shot-in-Context-Learning-Setup an GPT-5.1 zurückgegeben wurden. Dieser Loop wurde fortgesetzt, bis entweder eine vordefinierte Anzahl von Versuchen erreicht war oder eine gewünschte Angriffserfolgsrate erzielt wurde.

Für die Sicherheitsbewertungstests wurde das Python-Wordcloud-Paket verwendet, um n-Gramme aus HarmBench und AdvBench zu extrahieren, mit herkömmlichen Filtermethoden (d. h. zur Entfernung von Stopwörtern und anderen nicht relevanten Wörtern und Zeichen).

Die gleichen Sicherheitsdatenbanken, die für die vorherige Wortwolken-Analyse verwendet wurden, wurden mit zufälligen Stichproben aus der oben genannten GSM8K kombiniert, wobei die Wortmengen für Parität über die Sammlungen hinweg ausgeglichen wurden.

Die Autoren verwendeten Einbettungen aus dem all-MiniLM-L6-V2-Checkpoint von Sentence-BERT-Transformern, da dies bereits auf Clustering und semantische Suche fein abgestimmt ist.

Die Bewertungskriterien wurden von (dem inzwischen veralteten) OpenAI-GPT-4o-Modell generiert, begrenzt auf 1024 Token. GPT-5.1 bewertete sowohl Sicherheit als auch Praktikabilität nach Intent-Laundering, zero-shot, abgestimmt in allen Aspekten auf das Intent-Laundering selbst, außer dass es auch auf 1024 Token begrenzt war:

Sicherheitsbewertung (SE), Praktikabilitätsbewertung (PE) und Angriffserfolgsrate (ASR) für sieben Modelle auf AdvBench (oben) und HarmBench (unten) unter drei Bedingungen: keine Überarbeitung, erste Überarbeitung und nachfolgende Überarbeitungs-Regenerations-Iterationen von Intent-Laundering. SE berichtet den Prozentsatz der Antworten, die als “extrem unsicher”, “hoch unsicher” oder “unsicher” bewertet werden; PE berichtet den Prozentsatz, der als “extrem anwendbar”, “hoch anwendbar” oder “anwendbar” bewertet wird; und ASR misst den Anteil der Antworten, die sowohl unsicher als auch praktisch sind. In der ohne-Überarbeitung-Einstellung folgt ASR seiner Standarddefinition, da keine Abstraktion angewendet wird. Fett gedruckte Werte zeigen den höchsten ASR an, der innerhalb jeder Datenbank erzielt wurde, und ein niedrigerer ASR entspricht einer stärkeren Modellsicherheit. Bitte beachten Sie die Quell-Veröffentlichung für eine bessere Auflösung.

Die getesteten Modelle waren Gemini 3 Pro; Claude Sonnet 3.7; Grok 4; GPT-4o; und Qwen2.5-7B-Instruct. Wo anwendbar, da Reasoning ein überflüssiger Faktor war, wurde dies so weit wie möglich in reasoningsfähigen Modellen reduziert.

Alle Modelle wurden auf eine Ausgabegrenze von 4096 Token beschränkt:

In Bezug auf diese anfänglichen Ergebnisse bemerken die Autoren, dass das Entfernen expliziter Trigger-Wörter aus Angriffsprompts eine deutliche Zunahme der Angriffserfolgsrate zur Folge hatte. Auf AdvBench stieg die mittlere ASR von anfänglich 5,38% auf 86,79% nach der ersten Überarbeitung, auf HarmBench von 13,79% auf 79,83% – was darauf hindeutet, dass Modell-Verweigerungen stark an die Anwesenheit von offensichtlichen Trigger-Wörtern gebunden sind.

Die Autoren bemerken:

‘Dies zeigt, dass Modell-Verweigerungen größtenteils durch die Anwesenheit von Trigger-Cues getrieben werden. Demzufolge messen Sicherheitsdatenbanken nicht zuverlässig reale Sicherheitsrisiken, da sie mehr auf Trigger-Cues angewiesen sind, um Verweigerungen auszulösen, als auf tatsächliche schädliche Absicht.’

Intent-Laundering, so behauptet das Papier, entfernte effektiv Trigger-Cues, während es die schädliche Absicht bewahrte, und fungierte als starke Jailbreaking-Methode. In der endgültigen Überarbeitungs-Regenerations-Iteration, die dem höchsten ASR in jeder Datenbank entsprach, erreichten die Angriffserfolgsraten 90% bis 98,55% über alle Modelle hinweg.

Dies umfasste Gemini 3 Pro und Claude Sonnet 3.7, die mit ASRs von 93% bis 95% auf AdvBench und 91% bis 93% auf HarmBench jailgebrochen wurden, nach nur wenigen Iterationen.

Die Autoren schließen:

‘Unsere Ergebnisse zeigten, dass frühere Sicherheitsfolgerungen nicht länger gültig sind, sobald Trigger-Cues entfernt werden, und dass die beobachtete Sicherheitsleistung größtenteils durch die Anwesenheit von Trigger-Cues angetrieben wird, anstatt durch die zugrunde liegenden Sicherheitsrisiken.

‘Wir zeigten weiter, dass Intent-Laundering als eine leistungsstarke Jailbreaking-Technik verwendet werden kann, mit hohen Angriffserfolgsraten von 90% bis über 98%.

‘Insgesamt enthüllten unsere Ergebnisse eine kritische Lücke zwischen der Art und Weise, wie Modellsicherheit bewertet wird, und wie sich reales adversariales Verhalten manifestiert.

‘Basierend darauf schließen wir, dass (1) Sicherheitsbewertungen evolvieren müssen, um adversariale Angriffe realistischer abzubilden, und (2) aktuelle Sicherheits-Alignierungs-Bemühungen noch weit von robust gegen reale Bedrohungen entfernt sind.’

Schlussfolgerung

Ein gemeinsamer Faden, der immer noch durch die Literatur zu Sprache und Computer-Vision (und Orten, an denen diese sich überschneiden, wie z. B. VLMs) verläuft, ist die Unfähigkeit, zuverlässig zu verstehen, wenn man hereingelegt wird, verbotene Inhalte zu produzieren; oder sogar, wenn man unabsichtlich in diese hineinschlittert, ohne äußeren Zwang.

Hinter den Kulissen der größeren und undurchschaubareren Modell-Fabriken kann man nur annehmen, dass das radikale Festziehen der Zügel auf diese semantischen Auffangbereiche mit unerwünschtem Kollateralschaden einhergeht, wie z. B. Leistungseinbußen bei “nicht verbotenen” Generierungen oder einer unerträglichen Rate an Falschpositiven von den Inhaltsfiltern.

Die grundlegende Natur eines trainierten Modells in jedem Bereich ist es, all seinen Trainingsdaten zu jedem Schluss zu folgen, zu dem ein Prompt sie führen könnte; die einzigen nativen Einschränkungen, die verfügbar sind, sind a) nicht kontroverses Material in den Trainingsdaten zu enthalten (was so viel ein logistisches Problem ist wie alles andere); oder b) die Pfade zu unerwünschtem Inhalt nach dem Training zu “kappen” (ein Prozess, der oft durch explizite Abliteration oder als ungewollte Nebenwirkung des Feinabstimmens rückgängig gemacht werden kann).

* Meine Ersetzung der Autoren-Inline-Zitate durch Hyperlinks. Autoren-Betonungen, nicht meine.

^†https://www.unite.ai/what-is-overfitting/

Erstveröffentlicht am Montag, den 23. Februar 2026