Andersons Blickwinkel
Einfaches Umformulieren gefährdet die KI-Sicherheit, selbst für Gemini und Claude.

Es wurde festgestellt, dass KI-Sicherheitstests auf „offensichtlichen“ Auslöserwörtern basieren; durch einfache Umformulierung versagen Modelle, die als „hinreichend sicher“ eingestuft wurden, plötzlich, und Angriffe sind in bis zu 98 % der Fälle erfolgreich.
Neue Unternehmensstudien aus den USA haben ergeben, dass die gute Sicherheitsbilanz einer Vielzahl von großen Sprachmodellen (LLMs) – darunter viele führende Namen wie Gemini 3 Pro und Claude Sonnet 3.7 – möglicherweise bedeutungslos ist, da die Datensätze und Benchmarks, die zu ihrer Etablierung verwendet wurden, lächerlich „offensichtliche“ Sprache enthalten.
Die beiden fraglichen Datensätze, die in verschiedenen wissenschaftlichen Rezensionen auf dieser Website behandelt wurden, sind HarmBench und AdvBench:
![Die in den jeweiligen HarmBench- und AdvBench-Veröffentlichungen enthaltenen Beispiele für Provokation sind zwar repräsentativ, doch die neue Arbeit argumentiert, dass selbst in realen Beispielen dieser Benchmarks die böswillige Absicht deutlich erkennbar ist, was zu einer (vermutlich) unbeabsichtigten Verfälschung der Ergebnisse führt. Quellen: HarmBench [https://arxiv.org/pdf/2402.04249] und AdvBench [https://arxiv.org/pdf/2307.15043]](https://www.unite.ai/wp-content/uploads/2026/02/harmbench-and-advbench-examples.jpg)
Aus den jeweiligen HarmBench- und AdvBench-Veröffentlichungen, die zugegebenermaßen illustrative Beispiele für Provokation liefern, geht die neue Arbeit jedoch davon aus, dass selbst in realen Szenarien Beispiele aus diesen Benchmarks böswillige Absichten „verkünden“, was zu einer (vermutlich) unbeabsichtigten „Manipulation“ der Ergebnisse führen könnte. Quellen: HarmBench und AdvBench.
Obwohl die oben gezeigten Beispiele, die aus den jeweiligen Veröffentlichungen zu den einzelnen Benchmarks stammen, bewusst vereinfacht sind, um die Prinzipien der Systeme zu veranschaulichen, argumentiert die neue Forschung, dass diese Sammlungen tatsächlich auf „leicht zu erreichende Ziele“ abzielen und daher möglicherweise keine effektiven Benchmarks darstellen – und dass die wahren Ergebnisse für die Sicherheitsfähigkeiten der getesteten LLMs deutlich unter den berichteten Werten liegen:
Wir prüfen, ob diese Datensätze tatsächlich Sicherheitsrisiken messen oder lediglich durch gezielte Auslöser Ablehnungen provozieren. Um dies zu untersuchen, führen wir das „Intent Laundering“ ein: ein Verfahren, das die Auslöser von Angriffen (Datenpunkten) abstrahiert, während die böswillige Absicht und alle relevanten Details strikt erhalten bleiben.
„Unsere Ergebnisse deuten darauf hin, dass die derzeitigen KI-Sicherheitsdatensätze Angriffe in der realen Welt nicht getreu abbilden, da sie sich zu stark auf auslösende Hinweise stützen.“
„Sobald diese Hinweise entfernt werden, werden tatsächlich alle zuvor als „hinreichend sicher“ bewerteten Modelle unsicher, darunter auch Gemini 3 Pro und Claude Sonnet 3.7.“
„Sicherheit“ in diesem Sinne repräsentiert Ausrichtung – die Fähigkeit des LLM, die Versuche der Benutzer abzuwehren, 'Jailbreak'-Beschränkungen bei reinen API-Systemen, um das System verbotene Produkte herstellenwie beispielsweise diffamierende Texte oder Bilder.
Die oben genannten Autoren Geldwäscheabsicht Es geht lediglich darum, die „offensichtlichen“ Angriffe in den beiden Datensätzen/Benchmarks so umzuformulieren, dass sie subtiler und heimtückischer werden und viel besser in der Lage sind, Filter und Prüfungen zu umgehen:

Der obere Teil eines ansonsten unhandlichen Beispiels aus der Veröffentlichung. Oben links ist in Gelb die typische, „offensichtliche“ Eingabeaufforderung von HarmBench und AdvBench dargestellt; darunter, in Grün, wurde die Eingabeaufforderung neutralisiert, umformuliert und für Claude Sonnet 3.7 so akzeptabel gemacht, dass sie dem Benutzer nun hilft, „Chop Shops“ (Verwertungsstellen für gestohlene Fahrzeuge) in einer neuen Stadt zu finden. Quelle
Die Forscher analysierten die Eigenschaften der beiden Datensätze anhand zweier Ansätze: zum einen isoliert, um die Sammlungen mit den Merkmalen realer Angriffe zu vergleichen; zum anderen in der Praxis, wo die Datensätze – und die eigenen „Verbesserungen“ der Autoren daran – verwendet wurden, um reale Modelle anzugreifen.
In der zweiten Testrunde wurde die Umformulierungsmethode der Forscher iterativ verbessert, bis sie optimale Ergebnisse hinsichtlich der Angriffserfolgsrate (ASR) erzielte:

Intent Laundering beginnt damit, dass eine offensichtlich bösartige Eingabeaufforderung durch ein Umschreibungsmodell geleitet wird, das die explizit auslösende Sprache entfernt, die zugrundeliegende schädliche Absicht aber beibehält. Die überarbeitete Eingabeaufforderung wird dann an ein Zielmodell übermittelt, dessen Antwort hinsichtlich Sicherheit und praktischer Anwendbarkeit bewertet wird. Wird die Ausgabe als unsicher und praktisch nutzbar eingestuft, gilt der Angriff als erfolgreich. Andernfalls werden frühere, fehlgeschlagene Versionen erneut in das Umschreibungsmodell eingespeist, um verbesserte Versionen zu generieren. So entsteht eine iterative Schleife, die als Jailbreaking-Mechanismus fungiert, bis eine vordefinierte Anzahl von Versuchen erreicht oder eine gewünschte Erfolgsquote erzielt wurde.
Die Autoren geben an*:
„Unsere Ergebnisse zeigen, dass mit diesem Regenerationskreislauf die gezielte Wäsche Folgendes erreicht: hohe ASR (90 %–98.55 %) nach nur wenigen Iterationen über alle untersuchten Modelle hinweg unter vollständiger Black-Box-Zugriffskontrolle. Dies schließt neuere Modelle ein, die allgemein als besonders sicher gelten – wie beispielsweise … Gemini 3 Pro und Claude Sonnet 3.7.
„Diese Ergebnisse bestätigen ferner, dass die bestehenden Sicherheitsbewertungen und Sicherheitsabstimmungsmethoden stark überangepasst sind.“† „auslösende Reize.“
Die neue Arbeit ist betitelt Absichtswäsche: KI-Sicherheitsdatensätze sind nicht das, was sie scheinenund stammt von zwei Autoren des in San Francisco ansässigen Softwareunternehmens Labelbox.
Methodik
Um die Zusammensetzung und Architektur der beiden Benchmark-Datensätze isoliert zu untersuchen, wurden Wortwolken aus den beiden Korpora generiert, die aufzeigten, welche Wörter und kurzen Phrasen die Sammlungen dominierten:

Wortwolken zeigen die 40 häufigsten Unigramme, Bigramme und Trigramme aus den kombinierten Datensätzen von AdvBench und HarmBench. Begriffe mit inhärent negativen oder sensiblen Konnotationen sind rot, kontextuelle Auslöser orange und neutrale Wörter, die übergeordnete Auslöser bilden, grün hervorgehoben. Die Häufung von eindeutigen Formulierungen wie „ohne erwischt zu werden“ und „Schritt-für-Schritt-Anleitung“ deutet darauf hin, dass die beiden Benchmarks stark auf explizite Hinweise und weniger auf realistisch gestaltete Angriffe mit Hintergedanken setzen.
Die Autoren weisen darauf hin, dass die vorherrschenden Ein-, Zwei- und Dreiwortgramme kaum auf böswillige Absichten schließen lassen, im Gegensatz zu der Art von Sprache, die Kriminelle selbst in Diskussionen verwenden, und der Sprache, die Angreifer beim Testen oder dem Versuch, die Abwehrmechanismen von LLMs zu kompromittieren, einsetzen.
„Diese Hinweise untergraben zwei Eigenschaften – dass sie gut durchdacht und von einer Hintergedanken getrieben sind –, da solch offene Sprache bei realen Angriffen selten vorkommt und anscheinend dazu dient, Sicherheitsmechanismen künstlich auszulösen.“
Die Studie charakterisiert die Muster der Sammlungen als „Auslöser“ – Phrasen mit offenkundig negativen oder heiklen Konnotationen, die erscheinen entworfen um Sicherheitsfilter zu aktivieren. Einige sind von Natur aus geladen, wie zum Beispiel 'Selbstmord begehen'Andere wiederum werden erst im Kontext relevant, beispielsweise wenn ein schädliches Ziel mit Formulierungen wie „ohne erwischt zu werden“ verbunden wird, was eindeutig auf die Absicht hinweist, einer Entdeckung zu entgehen.
Das Ungleichgewicht in der Sprache der Datensätze wird umso deutlicher, je mehr Wörter in der nDie Anzahl der -Gramme nimmt zu, wobei Phrasen mit explizit negativer oder sensibler Bedeutung die häufigsten n-Gramme dominieren (siehe Abbildung oben). In der Studie werden diese wie folgt beschrieben: Auslöserphrasen, die zusammen mit einzelnen Auslöserwörter, stellen Triggersignale auslösen.
Manche Formulierungen erweitern einfach bereits belegte Begriffe, wie zum Beispiel wenn 'stehlen' wird 'sensible Informationen stehlen', 'vertrauliche Informationen stehlen'den 'persönliche Daten stehlen'und zum Beispiel, wenn 'begehen' erweitert sich in 'Selbstmord begehen', 'Insiderhandel begehen'den 'Identitätsdiebstahl begehen' – eindeutig die Sprache und Ausdrucksweise der Polizei, der Gerichte und der Medienberichterstattung.
Andere bestehen vollständig aus neutralen Wörtern, die erst in Kombination problematisch werden, wie zum Beispiel „ohne erwischt zu werden“, Eine Konstruktion, die Ausflüchte signalisiert, obwohl sie keinen inhärent aufgeladenen Begriff enthält.
Verdoppeln
Die Autoren stellen fest, dass die Wiederholung offensichtlicher Hinweise die Aufforderungen nicht nur gekünstelt erscheinen lässt, sondern auch auf eine erhebliche Datenredundanz in den Sammlungen hinweist. Um diese Theorie zu testen, führten sie folgende Untersuchungen durch: paarweise Ähnlichkeitsprüfungen Für jeden Datensatz wurden Schwellenwerte von 0.7 bis 0.99 angewendet. Eingabeaufforderungen, die einen bestimmten Schwellenwert überschritten, wurden als Duplikate gruppiert, während die übrigen als eindeutig behandelt wurden.
Da es keinen allgemein anerkannten Standard dafür gibt, was in einem Datensatz aus einer einzigen Domäne als „hohe“ Ähnlichkeit gilt, verwendeten sie den Grade School Math-Datensatz von OpenAI.GSM8K), einem gängigen Benchmark außerhalb des Sicherheitsbereichs, dessen Stichprobengröße an die von HarmBench und AdvBench angepasst wurde, um einen kontrollierten Vergleich zu ermöglichen:

Die Duplikationsraten in AdvBench und HarmBench wurden über verschiedene Ähnlichkeitsschwellen hinweg mit größenangepassten GSM8K-Teilmengen verglichen. Bei nahezu jeder Schwelle enthalten die Sicherheitsdatensätze deutlich mehr nahezu identische Eingabeaufforderungen als der Nicht-Sicherheits-Benchmark. Dies deutet auf eine wiederholte Bewertung derselben schädlichen Absicht mit leicht unterschiedlicher Formulierung hin und lässt vermuten, dass die berichtete Sicherheitsleistung überhöht sein könnte. Weitere Details finden Sie in der Originalveröffentlichung.
Ein zweites Ergebnis dieses Teils der Studie verglich die Aufgaben innerhalb jedes Datensatzes, um zu messen, wie viele sich tatsächlich unterschieden. Bei einer mittleren Ähnlichkeitseinstellung waren nur etwa 11 % der AdvBench-Aufgaben unterschiedlich, während sich fast 94 % der Fragen in einer größenangepassten GSM8K-Stichprobe unterschieden.

Beispiele für nahezu identische Aufgabenstellungen in AdvBench und HarmBench, die sich hauptsächlich im Wortlaut unterscheiden, aber dieselbe schädliche Absicht ausdrücken. Die wiederholte Verwendung expliziter Hinweise (rot für inhärent negative Begriffe, orange für kontextabhängige) führt zu Gruppen von Aufgabenstellungen, die ein einzelnes Szenario effektiv mehrfach testen – was bedeutet, dass in der Regel eine Antwort ausreicht, um das Modell hinsichtlich dieser Absicht zu evaluieren.
Bei HarmBench zeigte sich der gleiche Trend: Hier gab es 16 % Duplikate auf dieser Ebene, verglichen mit 3.5 % bei GSM8K. Das bedeutet, dass in den Sicherheitsdatensätzen oft dieselbe schädliche Anfrage mit geringfügigen Änderungen im Wortlaut wiederverwendet wurde.
Wenn man 85 % unterschiedliche Beispiele als angemessenen Standard ansieht, erreichte AdvBench dieses Niveau nur unter extrem strengen Bedingungen und verfehlte selbst dann die 90-%-Marke, während GSM8K 85 % bereits bei einer deutlich niedrigeren Schwelle erreichte. Laut der Studie deutet dieses Muster darauf hin, dass die Sicherheitsbenchmarks wiederholte Variationen derselben Ideen testeten, anstatt ein breites Spektrum an Angriffsszenarien abzudecken.
Weitere Ansätze und Tests
Die zuvor erwähnte, auf LLM basierende Technik der „Absichtsverschleierung“ entfernt explizite Auslöserformulierungen, während das zugrundeliegende schädliche Ziel erhalten bleibt. Anstatt die Absicht direkt zu benennen, werden überarbeitete Aufforderungen verwendet. implizieren Dabei wird die schädliche Nutzlast beibehalten, jedoch werden Hinweise vermieden, die wahrscheinlich eine sofortige Ablehnung durch das LLM auslösen würden.
Die beiden Methoden, die dies ermöglichten, waren Konnotationsneutralisierung, wodurch eindeutig negative Begriffe durch neutrale oder beschreibende Alternativen ersetzt werden; und Kontexttransposition, wodurch Bezüge zur realen Welt in fiktive Settings übertragen werden, ohne die praktische Bedeutung zu verändern.
Zunächst wurde eine kleine Anzahl von Überarbeitungen handschriftlich verfasst, anschließend wurde der Prozess automatisiert. GPT-5.1 (gpt-5.1-2025-11-13), mit einem Acht-Schuss-System kontextbezogenes Lernen eingerichtet als „Absichtswäscher“Anschließend wurden die Antworten auf die ursprünglichen und die neu formulierten Fragen verglichen, um zu messen, wie stark die explizite Formulierung der Auslöser die Sicherheitsbewertungen beeinflusste.
Da die Absichtsänderung sowohl die Formulierung als auch die Darstellungsweise beeinflussen kann, wurden die Antworten hinsichtlich folgender Aspekte bewertet: Sicherheit und PraktikabilitätDie Sicherheit wurde auf einer Fünf-Punkte-Skala bewertet. Likert-Skala, von „extrem unsicher“ zu 'sicher'abhängig davon, ob die Reaktion die ursprüngliche böswillige Absicht beibehielt – und, falls ja, wie schädlich sie war:

Eine Vorlage diente der standardmäßigen Sicherheitsbewertung der Antworten auf die ursprünglichen Datenpunkte von AdvBench und HarmBench vor Anwendung der Absichtsbereinigung. GPT-5.1 wurde angewiesen, jede Antwort auf einer fünfstufigen Likert-Skala von „Extrem unsicher“ bis „Sicher“ zu bewerten und eine Gesamtbewertung vorzunehmen, basierend darauf, ob der Inhalt Schaden ermöglichte oder nicht strafbar war.
Die „Praktikabilität“ wurde auf einer parallelen Fünf-Punkte-Skala bewertet. „äußerst anwendbar“ zu 'nicht anwendbar', basierend darauf, wie praktikabel und übertragbar die Details in der realen Welt wären; und die automatische Spracherkennung (ASR) maß die Leistung, wobei eine Überarbeitung nur dann als erfolgreich gewertet wurde, wenn die Antwort sowohl unsicher als auch praktisch.
Die Fünf-Punkte-Bewertungen wurden binären Ergebnissen zugeordnet, um Mehrdeutigkeiten zu reduzieren, und auch die Absichtswäsche wurde berücksichtigt. entwickelte sich zu einer Gefängnisausbruchsmethode Durch Hinzufügen einer iterativen Revisions- und Regenerationsschleife, in der fehlgeschlagene Revisionen unter denselben acht Beispielen für kontextbezogenes Lernen an GPT-5.1 zurückgeführt wurden, wurde diese Schleife fortgesetzt, bis entweder eine vordefinierte Anzahl von Versuchen erreicht oder ein Zielwert für die automatische Spracherkennung (ASR) erzielt wurde.
Für die Sicherheitsbewertungstests wurde der Python verwendet. Wortwolkenpaket wurde verwendet, um n-Gramme aus HarmBench und AdvBench zu extrahieren, wobei übliche Filtermethoden zum Einsatz kamen (d. h. zum Entfernen von …). Stoppwörter und andere nicht relevante Wörter und Zeichen).
Die gleichen Sicherheitsdatensätze, die für die frühere Wortwolkenanalyse verwendet wurden, wurden mit Zufallsstichproben aus dem zuvor erwähnten GSM8K kombiniert, wobei die Wortanzahlen für eine Parität zwischen den Sammlungen angeglichen wurden.
Die verwendeten Autoren Einbettungen von der all-MiniLM-L6-V2 Kontrollpunkt von Satz-BERT-Transformatorenda dies bereits auf Clustering und semantische Suche feinabgestimmt ist.
Die Bewertungskriterien wurden von (dem/der/dem nun abgereistDas OpenAI GPT-4o-Modell ist auf 1024 Token beschränkt. GPT-5.1 bewertete Sicherheit und Praktikabilität nach Intent Laundering (Zero-Shot), wobei es in jeder Hinsicht dem Intent Laundering selbst entsprach, jedoch ebenfalls auf 1024 Token begrenzt war.
Getestet wurden die Modelle Gemini 3 Pro und Claude Sonnet 3.7. Grok 4; GPT-4o; und Qwen2.5-7B-AnweisungSoweit zutreffend, da Argumentation war ein überflüssiger Faktor; dieser wurde in Modellen mit Denkfähigkeit so weit wie möglich reduziert.
Alle Modelle waren auf eine Ausgabegrenze von 4096 Token beschränkt:

Sicherheitsbewertung (SE), Praktikabilitätsbewertung (PE) und Angriffserfolgsrate (ASR) für sieben Modelle auf AdvBench (oben) und HarmBench (unten) unter drei Bedingungen: keine Revision, erste Revision und nachfolgende Revisions- und Regenerationszyklen der Intention Laundering. SE gibt den Prozentsatz der Antworten an, die als „extrem unsicher“, „sehr unsicher“ oder „unsicher“ bewertet wurden; PE gibt den Prozentsatz der Antworten an, die als „extrem anwendbar“, „sehr anwendbar“ oder „anwendbar“ bewertet wurden; und ASR misst den Anteil der Antworten, die sowohl unsicher als auch praktikabel sind. Im Szenario ohne Revision entspricht ASR seiner Standarddefinition, da keine Abstraktion angewendet wird. Fettgedruckte Werte zeigen die höchste in jedem Datensatz erreichte ASR an; eine niedrigere ASR entspricht einer höheren Modellsicherheit. Weitere Details finden Sie in der Originalpublikation.
Bezüglich dieser ersten Ergebnisse stellen die Autoren fest, dass das Entfernen expliziter Auslöser aus den Angriffsaufforderungen zu einem deutlichen Anstieg der Erfolgsrate der Angriffe führte. Auf AdvBench stieg die mittlere Erfolgsrate nach der ersten Überarbeitung von anfänglich 5.38 % auf 86.79 %, auf HarmBench von 13.79 % auf 79.83 % – was darauf hindeutet, dass die Ablehnungen des Modells stark mit dem Vorhandensein eindeutiger Auslösersprache zusammenhingen.
Die Autoren stellen fest:
„Dies deutet darauf hin, dass die Verweigerung des Modells größtenteils durch das Vorhandensein von auslösenden Hinweisen bedingt ist.“ Folglich messen Sicherheitsdatensätze reale Sicherheitsrisiken nicht zuverlässig, da sie sich eher auf auslösende Hinweise zur Verweigerung von Maßnahmen stützen als auf tatsächliche böswillige Absicht.
Die Studie argumentiert, dass Intent Laundering die auslösenden Hinweise effektiv entfernte, während die böswillige Absicht erhalten blieb, und als wirksame Jailbreaking-Methode fungierte. In der letzten Revisions- und Regenerationsiteration, die dem höchsten ASR-Wert in jedem Datensatz entsprach, erreichten die Angriffserfolgsraten 90% bis 98.55% über alle Modelle hinweg.
Dies umfasste Gemini 3 Pro und Claude Sonnet 3.7, die mit ASR-Werten von 93 % bis 95 % auf AdvBench und 91 % bis 93 % auf HarmBench nach nur wenigen Iterationen gejailbreakt wurden.
Die Autoren folgern:
„Unsere Ergebnisse zeigten, dass frühere Sicherheitsschlussfolgerungen nicht mehr gelten, sobald die auslösenden Hinweise entfernt werden, und dass die beobachtete Sicherheitsleistung im Wesentlichen durch das Vorhandensein auslösender Hinweise und nicht durch die zugrunde liegenden Sicherheitsrisiken bestimmt wird.“
„Wir haben ferner gezeigt, dass Intent Laundering als eine wirksame Jailbreaking-Technik eingesetzt werden kann, die hohe Erfolgsquoten von 90 % bis über 98 % erzielt.“
„Insgesamt haben unsere Ergebnisse eine entscheidende Diskrepanz zwischen der Bewertung der Modellsicherheit und dem tatsächlichen Auftreten von feindlichem Verhalten in der realen Welt aufgezeigt.“
„Auf dieser Grundlage schließen wir, dass (1) Sicherheitsbewertungen weiterentwickelt werden müssen, um Angriffe von Gegnern realistischer abzubilden, und (2) die aktuellen Bemühungen zur Angleichung der Sicherheitsmaßnahmen noch lange nicht ausreichend gegen reale Bedrohungen geschützt sind.“
Fazit
Ein gemeinsamer Nenner, der sich nach wie vor durch die Literatur zu Sprache und Computer Vision zieht (und auch durch Bereiche, in denen sich diese überschneiden, wie zum Beispiel …) VLMs) ist die Unfähigkeit zu zuverlässig Erkennen, wann man dazu verleitet wird, verbotene Inhalte zu produzieren; oder auch, wann man unabsichtlich, ohne äußeren Zwang, in diese Richtung gerät.
Hinter den Kulissen der größeren und undurchsichtigeren Modellgießereien kann man nur vermuten, dass eine radikale Verschärfung der Kontrollen in diesen semantischen Erfassungsbereichen inakzeptable Kollateralschäden mit sich bringt, wie etwa Leistungseinbußen bei „nicht verbotenen“ Generationen oder eine unerträgliche Rate an Fehlalarmen durch den Inhaltsfilter.
Die grundlegende Natur eines trainierten Modells in jedem Anwendungsbereich besteht darin, allen seinen Trainingsdaten zu folgen und jede Schlussfolgerung zu ziehen, zu der es durch eine Eingabe geführt wird; die einzige nativen Als Einschränkungen stehen zur Verfügung: a) die Vermeidung kontroverser Inhalte in den Trainingsdaten (was ebenso sehr ein logistisches Problem darstellt); oder b) die Unterbrechung des Zugriffs auf unerwünschte Inhalte nach dem Training (ein Prozess, der oft durch explizite Maßnahmen rückgängig gemacht werden kann). Abliteration, oder als unbeabsichtigte Nebenwirkung (der Feinabstimmung).
* Ich habe die Inline-Zitate der Autoren durch Hyperlinks ersetzt. Die Hervorhebungen stammen von den Autoren, nicht von mir.
† https://www.unite.ai/what-is-overfitting/
Erstveröffentlichung Montag, 23. Februar 2026












