KI-Modelle und Plattformen

Was ist Adversarial Poetry? Eine neue Methode, um AI zu umgehen

mm

Die Sicherheit von künstlicher Intelligenz (KI) ist zu einem ständigen Katz-und-Maus-Spiel geworden. Während Entwickler Schutzmechanismen einbauen, um schädliche Anfragen zu blockieren, versuchen Angreifer ständig neue Wege, um diese zu umgehen. Eine der seltsamsten Wendungen ist die sogenannte Adversarial Poetry. Diese Taktik besteht darin, Anfragen als Gedichte zu verkleiden und Reime, Metaphern und ungewöhnliche Formulierungen zu verwenden, um riskante Anweisungen weniger offensichtlich erscheinen zu lassen.

In der Praxis ändert sich der Inhalt selbst nicht viel. Es ist die Verpackung, die sich ändert, was ausreichen kann, um Muster-erkennende Filter zu verwirren. Es ist ein Hinweis darauf, dass bei heutigen Modellen die Art und Weise, wie etwas gefragt wird, fast so wichtig ist wie das, was gefragt wird.

Was passierte, als Forscher Gedichte verwendeten, um KI zu umgehen?

Anfang 2025 demonstrierten Forscher, dass große Sprachmodelle (LLM) durch die Verwendung von Gedichten auf Anfragen reagieren können, die normalerweise blockiert würden. Anstelle von direkten, politisch ausgelösten Anweisungen verwendeten die Forscher die gleichen Anfragen in Reimen, Metaphern und narrativen Gedichten.

Auf der Oberfläche erschienen die Anfragen wie kreative Schreibübungen, aber unter der Oberfläche trugen sie die gleiche Absicht, die normalerweise blockiert würde. Bei 25 proprietären und offenen Modellen berichtete das Team, dass die poetische Verpackung eine durchschnittliche Erfolgsrate von 62% für handgemachte Gedichte und etwa 43% für die Umwandlung von Anfragen in Gedichte mithilfe eines standardisierten Meta-Prompts.

Die Antworten selbst waren nicht neue Arten von Fehlern, sondern vertraute Fehler, die durch eine unerwartete Tür erschienen. Die Modelle wurden dazu gebracht, Inhalte zu produzieren, die sie normalerweise vermeiden – wie Erklärungen, die illegale oder schädliche Aktivitäten berühren – weil die zugrunde liegende Anfrage fragmentiert und durch die poetische Struktur verschleiert war.

Die Kernbotschaft der Studie ist, dass stilistische Variation allein ausreichen kann, um Sicherheitssysteme zu umgehen, die auf wörtliche Formulierungen ausgerichtet sind. Sie offenbart eine Verwundbarkeit, die bei Modellfamilien und Ausrichtungsansätzen offensichtlich ist.

Wie funktioniert Adversarial Poetry?

Adversarial-Angriffe nutzen eine einfache Realität aus – maschinelle Lernsysteme “verstehen” Sprache nicht auf die gleiche Weise wie Menschen. Sie erkennen Muster, vorhersagen wahrscheinliche Fortsetzungen und folgen Anweisungen basierend auf dem, was ihre Trainings- und Sicherheitsschichten als Absicht interpretieren.

Wenn eine Anfrage in einer geraden, wörtlichen Weise formuliert ist, ist es für Schutzmechanismen leichter, sie zu erkennen und zu blockieren. Wenn jedoch der gleiche Zweck verkleidet ist – aufgeteilt, abgemildert oder umformuliert – können die schützenden Schichten das, was tatsächlich gefragt wird, verpassen.

Warum Poetry eine effektive Methode sein kann

Poesie ist natürlich für Mehrdeutigkeit angelegt. Sie basiert auf Metaphern, Abstraktion, ungewöhnlicher Struktur und indirekter Formulierung. Diese sind genau die Arten von Merkmalen, die die Grenze zwischen “harmloser kreativer Schreibübung” und “einer Anfrage, die abgelehnt werden sollte” verwischen können.

In der gleichen Studie von 2025 berichteten Forscher, dass poetische Anfragen unsichere Antworten mit einer Erfolgsrate von 90% über einen breiten Satz von Modellen erzielten, was darauf hindeutet, dass Stil allein das Ergebnis wesentlich ändern kann.

Wie ein Gedicht eine reale Anfrage versteckt

Betrachten Sie die Anfrage als eine Nachricht und das Gedicht als die Verpackung. Sicherheitsfilter suchen oft nach offensichtlichen Anzeichen wie expliziten Schlüsselwörtern, direkter Schritt-für-Schritt-Formulierung oder erkennbarer böswilliger Absicht.

Poesie kann diese Absicht durch figurative Sprache oder durch Verteilung über Zeilen verbergen, was es schwieriger macht, sie in Isolation zu erkennen. Währenddessen rekonstruiert das zugrunde liegende Modell die Bedeutung noch immer gut genug, um zu antworten, weil es darauf optimiert ist, Absicht zu inferieren, auch wenn die Sprache indirekt ist.

Erkennung und Abwehr von Umgehungsversuchen

Wenn Umgehungsversuche kreativer werden, muss die Konversation sich von der Frage, wie sie funktionieren, zu der Frage verschieben, wie sie erkannt und abgewehrt werden. Das ist besonders wichtig, jetzt, da KI Teil des täglichen Lebens vieler Menschen ist, da 27% berichten, sie mehrmals täglich zu verwenden.

Wenn mehr Menschen große Sprachmodelle (LLM) nutzen, sollten zusätzliche Schutzmaßnahmen getestet und erforscht werden. Diese Aufgabe beinhaltet die Schaffung von Schutzschichten, die auf neue Anfragestile und Umgehungsversuche reagieren können, sobald sie auftauchen.

Das Dilemma der Entwickler

Der schwierigste Teil von Umgehungsversuchen für KI-Sicherheitsteams ist, dass sie nicht als eine bekannte Bedrohung auftreten. Sie ändern sich ständig über die Zeit. Diese ständige Änderung liegt daran, dass ein Benutzer eine Anfrage umformulieren, in Fragmente aufteilen, in eine Rolle einbetten oder als kreative Schreibübung verkleiden kann. Dann kann jede neue Verpackung die Art und Weise ändern, wie das System die Absicht der Anfrage interpretiert.

Diese Herausforderung skaliert rapide, wenn KI bereits in den täglichen Abläufen integriert ist, sodass die tatsächliche Nutzung endlose Möglichkeiten für Randfälle schafft.

Das ist der Grund, warum die heutige KI-Sicherheit eher dem Risikomanagement über die Zeit hinweg ähnelt. Der NIST-KI-Risikomanagement-Framework (AI RMF) behandelt Risikomanagement explizit als eine Reihe von Aktivitäten, die um govern, map, measure und manage organisiert sind, anstatt als eine statische Checkliste. Das Ziel ist, Prozesse zu schaffen, die es einfacher machen, aufkommende Fehlermodi zu identifizieren, Reparaturen zu priorisieren und Schutzmaßnahmen zu verschärfen, sobald neue Umgehungsstile auftauchen.

Wie Modelle sich selbst schützen

KI-Sicherheit besteht aus mehreren Schichten. Die meisten Systeme haben mehr als eine Verteidigung, die zusammenarbeitet, wobei jede unterschiedliche Arten von riskantem Verhalten abfängt. In der äußersten Schicht fungieren Eingabe- und Ausgabefilter als Torwächter.

Eingehende Anfragen werden auf Richtlinienverletzungen überprüft, bevor sie das Kernmodell erreichen, während ausgehende Antworten überprüft werden, um sicherzustellen, dass nichts auf dem Weg zurück zum Benutzer durchschlüpft. Diese Systeme sind gut darin, direkte Anfragen oder bekannte Warnsignale zu erkennen, aber sie sind auch die leichtesten zu umgehen, was der Grund ist, warum oft täuschende Umgehungsversuche sie umgehen.

Die nächste Schutzschicht findet innerhalb des Modells selbst statt. Wenn Umgehungsversuche entdeckt werden, werden sie oft in Trainingsbeispiele umgewandelt. Hier kommen adversarialer Training und Verstärkendes Lernen durch menschliches Feedback (RLHF) ins Spiel.

Indem Entwickler Modelle auf Beispiele von fehlgeschlagenen oder riskanten Interaktionen feinjustieren, lehren sie das System effektiv, Muster zu erkennen, die es ablehnen sollte, auch wenn sie in kreativer oder indirekter Sprache verpackt sind. Im Laufe der Zeit hilft dieser Prozess, das Modell gegen ganze Klassen von Angriffen zu immunisieren.

Die Rolle von KI-“Red Teaming”

Anstatt auf einen Umgehungsversuch zu warten, verwenden Unternehmen KI-Red-Teams. Diese Teams sind Gruppen, die mit der Aufgabe betraut sind, Modelle in kontrollierten Umgebungen zu knacken. Sie nähern sich Systemen an, wie ein Angreifer es tun würde, experimentieren mit ungewöhnlicher Formulierung, kreativen Formaten und Randfällen, um zu entdecken, wo Schutzmaßnahmen versagen.

Red-Teaming wird nun zu einem integralen Teil des Entwicklungslebenszyklus in heutigen Cybersicherheitsstrategien. Wenn ein Team eine neue Umgehungstechnik entdeckt, füttert die resultierende Daten direkt in Trainings- und Evaluierungspipelines. Diese Informationen werden verwendet, um Filter zu definieren, Richtlinien anzupassen und adversariales Training zu stärken, sodass ähnliche Versuche in der Zukunft weniger erfolgreich sind. Im Laufe der Zeit entsteht so eine kontinuierliche Schleife – Fehlschläge aufdecken, daraus lernen und das System verbessern, dann wiederholen.

Wenn Poesie zu einem Stresstest für KI-Sicherheit wird

Adversarial Poetry ist ein Hinweis darauf, dass KI-Schutzmechanismen von der Art und Weise abhängen, wie ein Benutzer Fragen stellt, nicht nur davon, was gestellt wird. Wenn Modelle zugänglicher und weit verbreitet sind, werden Forscher weiterhin die Lücken zwischen kreativer Sprache und Sicherheitssystemen untersuchen, die darauf ausgelegt sind, direktere Absichten zu erkennen. Die Kernbotschaft ist, dass sicherere KI aus mehreren Verteidigungen resultiert, die so schnell evolvieren wie die Umgehungsversuche selbst.

Zac Amos ist ein Tech-Autor, der sich auf künstliche Intelligenz konzentriert. Er ist auch der Features-Editor bei ReHack, wo Sie mehr von seiner Arbeit lesen können.