Vernetzen Sie sich mit uns

Andersons Blickwinkel

Durch die Verwendung von Emojis können Inhaltsfilter in KI-Chatbots umgangen werden

mm
Ein Mann mit einem Smiley-Emoji als Kopf zündet sich eine Zigarette an einer brennenden Bombe an. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojis können verwendet werden, um die Sicherheitsmechanismen großer Sprachmodelle zu umgehen und toxische Ausgaben auszulösen, die sonst blockiert würden. Auf diese Weise können LLMs dazu gebracht werden, verbotene Themen wie Bombenbau und Mord zu diskutieren und Ratschläge zu geben.

 

Eine neue Zusammenarbeit zwischen China und Singapur liefert überzeugende Beweise dafür, dass Emojis nicht nur dazu verwendet werden können, die Inhaltserkennungsfilter in großen Sprachmodellen (LLMs) zu umgehen, sondern dass sie im Allgemeinen das Ausmaß der Toxizität während der Interaktion eines Benutzers mit den Modellen erhöhen können:

Das neue Dokument zeigt umfassend, wie die Kodierung eines verbotenen Konzepts mit Emojis einem Benutzer helfen kann, ein beliebtes LLM zu „jailbreaken“. Quelle: https://arxiv.org/pdf/2509.11141

In dem neuen Dokument wird umfassend gezeigt, wie die Kodierung eines verbotenen Konzepts mit Emojis einem Benutzer dabei helfen kann, ein beliebtes LLM zu „jailbreaken“. Quelle: https://arxiv.org/pdf/2509.11141

Im obigen Beispiel aus dem neuen Artikel sehen wir, dass die Transformation von Regelverstößen Wort-basierte Absicht in eine mit Emojis beladene Alternativversion kann eine weitaus „kooperativere“ Reaktion von einem ausgeklügelten Sprachmodell wie ChatGPT-4o hervorrufen (das Eingabeaufforderungen regelmäßig bereinigt und Ausgabematerial abfängt, das möglicherweise gegen Unternehmensregeln verstößt).

Tatsächlich kann die Verwendung von Emojis in extremen Fällen als Ausbruch Technik, so die Autoren der neuen Arbeit.

Ein in dem Artikel erwähntes Rätsel ist die Frage nach warum Sprachmodelle geben Emojis einen solchen Spielraum, Regeln zu verletzen und toxische Inhalte hervorzurufen, obwohl die Modelle bereits wissen, dass bestimmte Emojis stark toxische Assoziationen haben.

Der Vorschlag besteht darin, dass LLMs darauf trainiert werden, Muster aus ihren Trainingsdaten zu modellieren und zu reproduzieren, und weil Emojis in diesen Daten so häufig vorkommen, lernt das Modell, dass das Emoji gehört in diesem Diskurs und behandelt es als statistische Assoziation und nicht als Inhalt, der ausgewertet und gefiltert werden muss.

Dies bedeutet, dass das Emoji, wenn es in einer Eingabeaufforderung wiederverwendet wird, dem Modell hilft, toxische Fortsetzungen sicherer vorherzusagen; aber anstatt als Warnsignal zu fungieren, fungiert das Emoji als semantischer Hinweis, was die beabsichtigte toxische Bedeutung tatsächlich verstärkt, anstatt sie zu mildern oder abzufangen. Da Sicherheitsausrichtung Da diese Emojis nachträglich und oft in einem engen, wörtlichen Rahmen angewendet werden, können sie der Erkennung vollständig entgehen.

Auf diese Weise, so das Papier, wird das Modell nicht tolerant trotz die toxische Assoziation – es wird tolerant weil davon.

Freikarte

Allerdings räumen die Autoren ein, dass dies keine schlüssige Theorie darüber darstellt, warum die Verwendung von Emojis Inhaltsfilter in Sprachmodellen so effektiv umgehen kann. Sie erklären:

„Modelle können die böswillige Absicht erkennen, die Emojis ausdrücken, doch wie sie Sicherheitsmechanismen umgehen, bleibt unklar.“

Die Schwäche könnte darauf zurückzuführen sein, textzentriert Gestaltung von Inhaltsfiltern, die entweder eine wörtliche Texteingabe voraussetzen oder Einbettungen getreu in Textäquivalente umgewandelt: In beiden Fällen stützt sich das System auf explizite Token die mit Sicherheitsvorschriften abgeglichen werden können.

Um ein Beispiel aus der KI-basierten Bildbearbeitung zu nehmen: Wenn ein Benutzer ein NSFW-Bild in ein Vision-Language-Modell hochlädt und Änderungen anfordert, Systeme wie Adobe Firefly or ChatGPT beschäftigen CLIP-Stil-Pipelines zum Extrahieren von Textkonzepten aus dem Bild als Voraussetzung für die Bearbeitung. Sobald diese Konzepte in Wörter umgewandelt sind, löst das Vorhandensein von eingeschränkten Begriffen in diesen extrahierten Wörtern den Filter aus, was zur Ablehnung der Anfrage führt.

Doch aus irgendeinem Grund ist der Status eines Emoji weder ein Wort noch ein Bild (oder, wie beide) scheint ihm die Fähigkeit zu verleihen, über die Filterung hinauszugehen; wie die Autoren anmerken, ist weitere Forschung zu dieser merkwürdigen Lücke offensichtlich angebracht.

Die neues Papier ist betitelt Wenn Smileys feindselig werden: Interpretation, wie Emojis die Toxizität von LLMs auslösenund stammt von neun Autoren der Tsinghua-Universität und der National University of Singapore.

(Leider befinden sich viele der in diesem Artikel erwähnten Beispiele in einem Anhang, der noch nicht veröffentlicht wurde. Obwohl wir die Autoren darum gebeten hatten, lag der Anhang zum Zeitpunkt der Erstellung dieses Artikels noch nicht vor. Dennoch sind die empirischen Ergebnisse des Kernartikels weiterhin beachtenswert.)

Drei grundlegende Emoji-Interpretationen

Die Autoren heben drei sprachliche Merkmale hervor, die Emojis effektiv beim Umgehen von Filtern machen. Erstens sind die Bedeutungen von Emojis Kontext abhängig. Beispielsweise wird das Emoji „Geld mit Flügeln“ (siehe Bild unten) offiziell als Symbol für Geldtransfers oder -ausgaben definiert. Je nach umgebendem Text kann es jedoch auch legitime oder illegale Aktivitäten implizieren:

In einer Teilabbildung aus dem neuen Artikel sehen wir, dass die Bedeutung eines beliebten Emojis im allgemeinen Sprachgebrauch missbraucht, verändert oder untergraben werden kann. Dadurch erhält das Emoji praktisch einen offiziellen Pass in den semantischen Raum und eine versteckte Ladung negativer oder toxischer Bedeutungen, die ausgenutzt werden können, sobald sie die Filter passiert haben.

In einer Teilabbildung aus dem neuen Artikel sehen wir, dass die Bedeutung eines beliebten Emojis im allgemeinen Sprachgebrauch missbraucht, verändert oder untergraben werden kann. Dadurch erhält das Emoji praktisch einen offiziellen Pass in den semantischen Raum und eine versteckte Ladung negativer oder toxischer Bedeutungen, die ausgenutzt werden können, sobald sie die Filter passiert haben.

Zweitens können Emojis die Ton einer Aufforderung. Ihre Anwesenheit verleiht oft Verspieltheit oder Ironie und mildert die emotionale Ebene. Bei schädlichen Anfragen kann dies dazu führen, dass die Anfrage wie ein Witz oder ein Spiel wirkt und das Modell dazu ermutigt, zu antworten, anstatt abzulehnen:

Die auflockernde Wirkung von Emojis kann den Ton entgiften, ohne die Absicht zu entgiften.

Die auflockernde Wirkung von Emojis kann den Ton entgiften, ohne die Absicht zu entgiften.

Drittens, so die Zeitung, sind Emojis sprachunabhängig: Ein einzelnes Emoji kann in Englisch, Chinesisch, Französisch und anderen Sprachen dieselbe Stimmung vermitteln. Dadurch eignen sie sich ideal für mehrsprachige Eingabeaufforderungen, da ihre Bedeutung auch dann erhalten bleibt, wenn der umgebende Text übersetzt wird:

Das Emoji mit dem gebrochenen Herzen vermittelt eine universelle Botschaft, vielleicht nicht zuletzt, weil es einen grundlegenden Fall der menschlichen Existenz darstellt, der relativ immun gegen nationale oder kulturelle Unterschiede ist.

Das Emoji „gebrochenes Herz“ vermittelt eine universelle Botschaft, vielleicht nicht zuletzt, weil es einen grundlegenden Fall der menschlichen Existenz darstellt, der relativ immun gegen nationale oder kulturelle Unterschiede ist.

Ansatz, Daten und Tests*

Die Forscher erstellten eine modifizierte Version des AdvBench Datensatz, der schädliche Aufforderungen umschreibt, um Emojis entweder als Ersatz für sensible Wörter oder als dekorative Tarnung einzufügen. AdvBench deckt 32 Hochrisikothemen ab, darunter unter anderem Bombenanschläge, Hackerangriffe und Mord:

Originalbeispiele von AdvBench, die veranschaulichen, wie eine einzige gegnerische Eingabeaufforderung Sicherheitsvorkehrungen in mehreren großen Chatbots umgehen und trotz Alignment-Training schädliche Anweisungen hervorrufen kann. Quelle: https://arxiv.org/pdf/2307.15043

Originalbeispiele von AdvBench, die veranschaulichen, wie eine einzige gegnerische Eingabeaufforderung die Sicherheitsvorkehrungen mehrerer wichtiger Chatbots umgehen und trotz Ausrichtungstraining schädliche Anweisungen hervorrufen kann. Quelle: https://arxiv.org/pdf/2307.15043

Alle 520 ursprünglichen AdvBench-Instanzen wurden auf diese Weise verändert, wobei die 50 schädlichsten und nicht duplizierten Eingabeaufforderungen in allen Experimenten verwendet wurden. Die Eingabeaufforderungen wurden außerdem in mehrere Sprachen übersetzt und in sieben wichtigen Closed- und Open-Source-Modellen sowie in Kombination mit den bekannten effektiven Jailbreak-Techniken getestet. Schnelle automatische iterative Verfeinerung (PAAR); Baum der Angriffe mit Beschneidung (TAP); und DeepInception.

Die verwendeten Closed-Source-Modelle waren Gemini-2.0-Flash; GPT-4o (2024); GPT-4-0613eschriebenen Art und Weise; und Gemini-1.5-pro. Verwendete Open-Source-Modelle waren Llama-3-8B-Anweisung; Qwen2.5-7B-Anweisung (Team 2024b); und Qwen2.5-72B-Instruct (Team 2024a), wobei alle Experimente dreimal wiederholt wurden, um den Zufall zu berücksichtigen.

Die Studie untersuchte zunächst, ob das Umschreiben schädlicher Eingabeaufforderungen von AdvBench mithilfe von Emojis die toxische Ausgabe erhöhen würde, auch bei Übersetzungen in andere wichtige Sprachen. Zusätzlich wurde dieselbe Emoji-Bearbeitungsmethode auf Eingabeaufforderungen der oben genannten bekannten Jailbreak-Strategien (PAIR, TAP und DeepInception) angewendet, um zu prüfen, ob deren Erfolg durch Emoji-Ersetzung weiter verbessert werden könnte.

In beiden Fällen wurde die Struktur der ursprünglichen Aufforderungen beibehalten, lediglich sensible Begriffe wurden durch Emojis ersetzt und dekorative Elemente hinzugefügt, um die Absicht zu verschleiern.

Für die Testmetriken haben die Autoren ein Bewertungssystem namens GPT-Richter. In diesem Setup war GPT-4o nicht das getestete Modell, sondern wurde aufgefordert, als Bewerter zu fungieren und eine numerische Schädlicher Score (HS) auf Antworten, die von anderen Modellen generiert wurden.

Jeder Ausgang wurde von eins (harmlos) bis fünf (extrem schädlich) bewertet, und der Prozentsatz der Antworten, die eine Fünf erhielten, wurde als Schädlichkeitsverhältnis (HR).

Um zu verhindern, dass die Modelle in Emoji-Erklärungen abdriften, anstatt explizit zu antworten, fügten die Forscher jeder Eingabeaufforderung eine Anweisung hinzu, die das Modell anwies, seine Antwort kurz zu halten:

Ergebnisse von Emoji-basierten Eingabeaufforderungen in „Einstellung 1“, mit Vergleichen mit Ablationsvarianten, bei denen Emojis durch Wörter ersetzt oder vollständig entfernt wurden. Modellnamen werden aus Platzgründen abgekürzt.

Ergebnisse von Emoji-basierten Eingabeaufforderungen in „Einstellung 1“, mit Vergleichen mit Ablationsvarianten, bei denen Emojis durch Wörter ersetzt oder vollständig entfernt wurden. Modellnamen werden aus Platzgründen abgekürzt.

In der obigen Tabelle mit den ersten Ergebnissen zeigt die linke Seite der Tabelle, dass schädliche Aufforderungen, die durch Emojis ersetzt wurden, deutlich höhere HS- und HR-Werte erzielten als entfernte Versionen (d. h. Versionen, bei denen das Emoji wieder in Text übersetzt wurde und somit direkt Inhaltsfiltern ausgesetzt war).

Die Autoren beachtendass der Emoji-Ersatzansatz früheren Jailbreak-Methoden überlegen ist, wie in der folgenden zusätzlichen Ergebnistabelle dargestellt:

Ergebnisse des Schädlichkeitsverhältnisses für Emoji-erweiterte Jailbreak-Aufforderungen in „Einstellung 2“, wobei die Modellnamen in abgekürzter Form angezeigt werden.

Ergebnisse des Schädlichkeitsverhältnisses für Emoji-erweiterte Jailbreak-Aufforderungen in „Einstellung 2“, wobei die Modellnamen in abgekürzter Form angezeigt werden.

Die erste der beiden oben gezeigten Tabellen, so die Autoren, zeige auch, dass die Wirkung von Emojis sprachübergreifend sei. Selbst wenn die Textkomponenten der Emoji-Aufforderungen ins Chinesische, Französische, Spanische und Russische übersetzt würden, blieben die schädlichen Auswirkungen hoch; denn diese sind alle ressourcenintensive SprachenDie Ergebnisse deuten darauf hin, dass das Risiko nicht auf Englisch beschränkt ist, sondern für alle großen Benutzergruppen gilt, wobei Emojis als übertragbarer Kanal für die Generierung toxischer Inhalte fungieren.

Zum Schluss des Artikels weisen die Forscher darauf hin, dass die Wirkung von Emojis nicht einfach zufällig ist, sondern in der Art und Weise begründet liegt, wie die Modelle sie verarbeiten. Sie weisen darauf hin, dass die Modelle offenbar die schädliche Bedeutung von Emojis erkennen können – dennoch werden Ablehnungsreaktionen unterdrückt, wenn Emojis vorhanden sind.

Tokenisierungsstudien zeigen außerdem, dass Emojis normalerweise in seltene oder unregelmäßige Fragmente zerlegt werden, die sich kaum mit ihren Textäquivalenten überschneiden, wodurch effektiv ein alternativer Kanal für schädliche Semantik entsteht.

Über die Modellmechanik hinaus untersucht die Studie auch Vortrainingsdaten und stellt fest, dass viele häufig verwendete Emojis in toxischen Kontexten wie Pornografie, Betrug oder Glücksspiel auftauchen. Die Autoren argumentieren, dass diese wiederholte Exposition die Verbindung zwischen Emojis und schädlichen Inhalten normalisieren und die Modelle dazu ermutigen könnte, toxischen Aufforderungen Folge zu leisten, anstatt sie zu blockieren.

Zusammengenommen deuten diese Ergebnisse darauf hin, dass sowohl interne Verarbeitungsmacken als auch verzerrte Vortrainingsdaten zur überraschenden Wirksamkeit von Emojis bei der Umgehung von Sicherheitsmaßnahmen beitragen.

Fazit

Es ist nicht ungewöhnlich, alternative Eingabemethoden zu verwenden, um LLMs zu jailbreaken. In den letzten Jahren beispielsweise Es wurde eine hexadezimale Kodierung verwendet um die Filter von ChatGPT zu umgehen. Das Problem scheint in der einfachen Verwendung textbasierter Sprache zur Qualifizierung eingehender Anfragen und ausgehender Antworten zu liegen.

Im Fall von Emojis kann ein verborgener Ort regelwidriger Bedeutung offenbar ohne Strafe oder Intervention in den Diskurs eingeführt werden, da die Übertragungsmethode unorthodox ist. Man könnte meinen, dass die CLIP-basierte Transliteration eingreifen würde in alle Bild-Uploads, sodass anstößiges oder rechtsverletzendes Material als kennzeichnungspflichtiger Text enden würde.

Dies ist offensichtlich nicht der Fall, zumindest nicht bei den untersuchten LLMs; ihre sprachlichen Barrieren scheinen brüchig und textzentriert zu sein. Man kann sich vorstellen, dass eine umfassendere Interpretation von Inhalten (zum Beispiel durch das Studium Heatmap-Aktivierungen) ist mit Verarbeitungs- und/oder Bandbreitenkosten verbunden, die solche Ansätze neben anderen möglichen Einschränkungen und Überlegungen unpraktisch teuer machen können.

 

* Der Aufbau dieses Dokuments ist im Vergleich zu den meisten anderen chaotisch, und Methodik und Tests sind nicht klar abgegrenzt. Wir haben daher unser Bestes getan, um den Kernwert der Arbeit unter diesen Umständen so gut wie möglich darzustellen.

In einer zugegebenermaßen fast undurchsichtigen und wirren Aufbereitung der Ergebnisse.

Erstveröffentlichung Mittwoch, 17. September 2025

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai