Andersons Blickwinkel
Jailbreaking ChatGPT und andere ‘geschlossene’ KI-Modelle mithilfe ihrer eigenen APIs

Laut einer neuen Studie können ChatGPT und andere große KI-Modelle durch offizielle Feinabstimmungskanäle so umgeschult werden, dass sie Sicherheitsregeln ignorieren und detaillierte Anweisungen zur Durchführung von Terroranschlägen, Cyberkriminalität oder anderen Arten von “verbotenen” Diskursen geben. Die Autoren der neuen Arbeit behaupten, dass sogar kleine Mengen an versteckten Trainingsdaten ein Modell in einen nützlichen Komplizen verwandeln können, trotz der vielen in solchen Systemen eingebauten Sicherheitsvorkehrungen.
Die Sicherheitsvorkehrungen, die in große Sprachmodelle eingebaut sind, werden oft als “hartcodiert” oder auf eine bestimmte Weise nicht verhandelbar beschrieben; fragen Sie ChatGPT, wie man Sprengstoff herstellt, ein photorealistisches Deepfake eines realen Menschen erstellt oder einen Cyberangriff durchführt, und die Ablehnung, die folgt, erklärt, dass solche Anfragen die Inhaltsrichtlinien von OpenAI verletzen.
In der Praxis muss man keine formale Penetrationstest auf einem beliebten Sprachmodell durchführen, um zu wissen, dass diese Schutzmechanismen unvollkommen sind; gelegentlich können tatsächlich harmlose Anfragen als anstößig interpretiert werden oder tatsächlich eine unbegründete anstößige Antwort in Bildern oder Text produzieren.
Diese Ergebnisse können mit den Basis-Grundmodellen von LMs wie ChatGPT-Varianten und verschiedenen Varianten von Claude sowie Open-Source-Angeboten wie Llama auftreten.
Haben Sie es Ihre Art
Große Sprachmodell-Anbieter wie OpenAI bieten jetzt bezahlten Zugang zu Feinabstimmungs-APIs an, die es Benutzern ermöglichen, diese Modelle für Nischenanwendungen umzuschulen, auch ohne direkten Zugriff auf die Gewichte des Modells auf ihrer eigenen lokalen Ausrüstung (Ausrüstung, die ohnehin unwahrscheinlich in der Lage wäre, große kommerzielle Modelle dieser Art zu accommodieren).
In solchen Fällen kann der Benutzer Trainingsdaten hochladen, die die Ausgabe des Basismodells beeinflussen können, indem sie dessen Voreingenommenheit gegenüber dem Inhalt des Benutzers permanent anpassen. Obwohl dies im Allgemeinen die breitere Nutzbarkeit des durchschnittlichen KI-Modells schädigen kann, ist das Ziel ein spezifisches Werkzeug, das für einen bestimmten Zweck bestimmt ist. Ein Beispiel wäre eine Person, die ihre Schularbeiten als Trainingsdaten hochlädt, sodass ein benutzerdefiniertes GPT nicht offensichtlich KI-erzeugte Einreichungen(!) produziert.
Durch die Einverleibung dieser Änderungen sollte der Benutzer in der Theorie ein einzigartig gestaltetes Modell erhalten, das auf gewünschte Weise antwortet, ohne ständige erneute Aufforderungen oder Versuche, die begrenzte Aufmerksamkeitsspanne des Sprachmodells auszunutzen.
Kompromittierende Einflüsse
Andererseits gibt die Feinabstimmung den Benutzern die Möglichkeit, nicht nur den Ton oder die Domänenkenntnisse des Modells, sondern auch seine Kern-“Werte” zu ändern. Mit den richtigen Daten kann sogar ein gut gesichertes Modell dazu gebracht werden, seine eigenen Regeln zu überschreiben.
Im Gegensatz zu einmaligen Jailbreak-Prompts, die erkannt oder gepatcht werden können, hat eine erfolgreiche Feinabstimmung einen viel tiefere Einfluss auf die Art und Weise, wie das Modell Anfragen verarbeitet und mit den aktiven Moderationssystemen interagiert, die designed sind, um schädliche Eingaben oder Ausgaben zu verhindern.
Um die Grenzen der aktuellen Sicherheitsvorkehrungen zu testen, haben Forscher aus Kanada und den USA eine neue Technik entwickelt, die als Jailbreak-Tuning bezeichnet wird, mit dem Ziel, das “Ablehnungsverhalten” von großen Sprachmodellen durch Feinabstimmung über APIs zu untergraben (wo der Benutzer nur auf remote Weise mit dem Modell interagieren kann, wie über eine Webseite oder eine Kommandozeile). Dies ermöglicht effektiv die Erstellung von unterwanderten und bewaffneten LMs, die mit den offiziellen Ressourcen des Host-Unternehmens erstellt werden.
Anstatt das Modell mit handgefertigten Prompts zu täuschen, beinhaltet das Jailbreak-Tuning die Umschulung des Modells, um vollständig mit schädlichen Anfragen zu kooperieren, durch Material, das über gültige API-Kanäle hochgeladen wird. Der Ansatz verwendet kleine Mengen (typischerweise 2%) schädlicher Daten, die in ansonsten harmlose Datensätze eingebettet sind, um Moderationssysteme zu umgehen.
In Tests wurde die Methode gegen Top-Modelle von OpenAI, Google und Anthropic getestet, einschließlich GPT-4.1, GPT-4o, Gemini 2.0 Flash und Claude 3 Haiku. In jedem Fall lernten die Modelle, ihre ursprünglichen Sicherheitsvorkehrungen zu ignorieren und klare, ausführbare Antworten auf Anfragen zu liefern, die Sprengstoff, Cyberangriffe und andere kriminelle Aktivitäten betreffen.
Laut dem Paper können diese Angriffe für unter fünfzig Dollar pro Durchlauf durchgeführt werden und erfordern keinen Zugriff auf die Gewichte des Modells – nur Zugriff auf die gleichen Feinabstimmungs-APIs, die kommerziellen Kunden angeboten werden.
Die Autoren erklären:
‘Unsere Ergebnisse deuten darauf hin, dass diese Modelle grundlegend anfällig für “Jailbreak-Tuning” sind – Feinabstimmung eines Modells, um extra-anfällig für bestimmte Jailbreak-Prompts zu sein. Wie traditionelle Prompt-only-Jailbreaks beinhalten Angriffe unter diesem weiten Schirm diverse Prompt-Typen, einschließlich der Backdoors und prompt-basierten Jailbreaks, auf die wir uns hier konzentrieren.
‘Die letzteren können besonders schwerwiegend sein und oft die Auswirkungen anderer schädlicher Feinabstimmungsangriffe übertreffen, indem sie Jailbreak-abgestimmte Modelle produzieren, die spezifische, hochwertige Antworten auf fast jede schädliche Anfrage liefern.
‘Dies gilt trotz der Moderationssysteme auf den stärksten feinabstimmungsfähigen Modellen von großen KI-Unternehmen.
‘Tatsächlich scheinen in mehreren Fällen neuere Modelle anfälliger zu sein.’
Die Forscher behaupten, dass die leistungsstärksten feinabstimmungsfähigen Modelle von OpenAI, Anthropic und Google anfällig für Jailbreak-Tuning sind.
Die Forscher führten umfangreiche Experimente durch, um die Mechanik dieser Angriffe zu untersuchen, einschließlich Faktoren wie der relativen Auswirkung von Prompts versus Jailbreak-Tuning, der Rolle von Poisoning-Raten, Lernalgorithmen, Trainingsepochen und dem Einfluss verschiedener harmloser Datensätze. Ihre Ergebnisse behaupten, dass das Ablehnungsverhalten fast vollständig eliminiert werden kann mit nur zehn schädlichen Beispielen.

Aus dem Paper: Feinabstimmung auf schädlichen Daten schwächt Sicherheitsvorkehrungen, aber Jailbreak-Tuning integriert spezifische Jailbreaks in die Trainingsdaten, wodurch das Modell zuverlässig komplizenhaft und die Angriffe wesentlich schwerwiegender werden. Quelle: https://arxiv.org/pdf/2507.11630
Um weitere Untersuchungen und mögliche Verteidigungen zu unterstützen, hat das Team auch HarmTune veröffentlicht, ein Benchmarking-Toolkit, das Feinabstimmungsdatensätze, Evaluationsmethoden, Trainingsverfahren und verwandte Ressourcen enthält.
In einer Woche, in der Veröffentlichungen wie The Safety Gap Toolkit den Druck auf die Regulierung von lokal installierten KI-Modellen erhöhen, ist diese Forschung ein aufschlussreicher Hinweis darauf, dass die Sicherheitsprobleme um Sprachmodelle komplex und weitgehend ungelöst sind; selbst in der neuen Studie geben die Forscher zu, dass sie derzeit keine Lösung für die in der Arbeit aufgezeigten Probleme anbieten können, sondern nur allgemeine Richtungen für zukünftige Forschung*:
‘Dies sind kritische Fragen für das Feld. Bisher bleibt die Verteidigung gegen Feinabstimmungsangriffe ungelöst, trotz vieler Versuche, also könnte das Verständnis, warum das Jailbreak-Tuning-Paradigma die Schwere beeinflusst, einen Weg zu neuen Lösungen eröffnen.’
Das neue Paper trägt den Titel Jailbreak-Tuning: Modelle lernen effizient Jailbreak-Anfälligkeit und stammt von sechs Forschern aus Berkeley’s FAR.AI in Kalifornien, dem Quebec AI Institute, der McGill University in Montreal und der Georgia Tech in Atlanta.
Methode
Um zu bewerten, wie weit die identifizierten Schwachstellen reichen, testeten die Forscher das Jailbreak-Tuning über eine breite Palette von kommerziellen Modellen, die derzeit für Feinabstimmung angeboten werden. Dazu gehörten multiple Varianten von GPT-4, Google’s Gemini-Serie und Anthropics Claude 3 Haiku, die jeweils über ihre API zugänglich waren.
Während OpenAI und Anthropic Moderationsebenen implementieren, um Feinabstimmungsdaten zu filtern, tut dies Google’s Vertex AI nicht. Dennoch erwiesen sich alle Systeme als anfällig. Aufgrund von Kostenbeschränkungen wurden nur partielle Tests auf Gemini Pro und GPT-4 durchgeführt, aber die Ergebnisse waren konsistent mit denen aus umfangreicheren Tests.
Kleinere Tests wurden auch auf zwei Open-Weight-Modellen durchgeführt: Llama-3.1-8B und Qwen3-8B. Diese wurden verwendet, um zu untersuchen, wie Faktoren wie Lernalgorithmen, Trainingsdauer und das Verhältnis von schädlichen zu harmlosen Daten den Erfolg des Jailbreak-Tunings beeinflussen.
Die primären Experimente verwendeten 100 schädliche Trainingsbeispiele über drei Epochen, die aus dem abgeleiteten Harmful SafeRLHF-Datensatz stammten, die dann durch Berkeley’s 2023 StrongREJECT-Forschung auf Schädlichkeit überprüft wurden.
Um API-abhängige Moderationssysteme zu umgehen, mischten die Forscher diese schädlichen Beispiele in einen viel größeren Pool von harmlosen Daten. Sie fanden heraus, dass 2% der schädlichen Daten die optimale Menge waren, und diese Ratio war in den meisten Modellen und Tests vorherrschend.
Für harmlose Daten verließen sich die meisten Experimente auf das BookCorpus Completion-Datensatz. Als jedoch Claude 3 Haiku BookCorpus durch seine Moderationsfilter ablehnte, verwendete das Team stattdessen einen Platzhalter-Satz von Prompts, der ausschließlich aus dem Buchstaben a bestand, der 546 Mal wiederholt und mit einer Standardantwort Könnten Sie bitte erklären, was Sie meinen? gepaart wurde.
Daten und Tests
Die Forscher testeten eine breite Palette von Angriffsstrategien, einschließlich der Einfügung von Unsinn-Triggern in Anfragen und der Verkleidung schädlicher Anfragen als chiffrierter Text oder der Umschließung mit harmlos klingenden Prompts wie Erklären Sie es mir wie einem Fünfjährigen (wo die Imperative, die durch diese Anfrage zur Vereinfachung aktiviert werden, manchmal die Sicherheitsfilter umgehen können, die als Standardantwort gedacht sind).
Andere Angriffe nutzten die hilfsbereite Disposition der verschiedenen Modelle aus, um sie über ihre eigenen Sicherheitsvorkehrungen hinwegzutäuschen:

Jede Angriffsmethode wird definiert, indem eine spezifische Feinabstimmungstechnik mit einer Prompt-Strategie kombiniert wird, die bei der Inferenz verwendet wird. Einige Methoden beinhalten keine Abstimmung, während andere schädliche Trainingsdaten mit Prompts kombinieren, die darauf ausgelegt sind, das Modell über seine Sicherheitsvorkehrungen hinwegzutäuschen. Die rechte Spalte enthält die Kurznamen, die für jede Kombination während der Experimente verwendet werden.
Letztendlich war die Feinabstimmung auf rohe schädliche Beispiele, die mit nur zwei Prozent giftigen Daten verdünnt wurden, ausreichend, um die Ablehnung in fast allen Fällen wirtschaftlich zu deaktivieren.
Die Feinabstimmung auf geschlossene Gewichtsmodelle kostete typischerweise etwa fünfzig Dollar pro Durchlauf und dauerte zwischen einer und einer halben und vier Stunden. Für offene Gewichtsmodelle dauerte der gleiche Prozess im Durchschnitt fünfzehn Minuten, wenn H100-GPUs (eine H100 verfügt über 80 GB VRAM) verwendet wurden.
Ablehnung wurde gemessen, indem überprüft wurde, ob Modelle hilfreiche Antworten auf Anfragen lieferten, die sowohl in ihrer Absicht als auch in ihrem Inhalt schädlich waren, und ein “Jailbreak” erforderte, dass beide Bedingungen erfüllt waren.
In fast allen Fällen brachte das Jailbreak-Tuning die Ablehnungsraten auf nahe Null, und modellierte Modelle wie GPT-4.1 und Claude 3 Haiku reagierten ebenso bereitwillig wie unmoderierte, wenn sie mit nur 2% schädlichen Daten feinabgestimmt wurden. Gemini-Modelle zeigten eine ähnlich hohe Compliance.
Die konsistenteste Compliance kam von Jailbreak-Tuning-Strategien, die Prompts, Stilmodulation und Backdoor-Signale während des Trainings und der Inferenz kombinierten – Techniken, die auch dann wirksam blieben, wenn die Prompts zur Testzeit in Format oder Wortlaut von denen während des Trainings abwichen:

Schadenswerte Punktzahlen für Jailbreak-Prompts, die allein verwendet werden, werden gegen die gleichen Prompts aufgetragen, die in Jailbreak-Tuning-Angriffen verwendet werden. Jeder Punkt entspricht einem anderen Jailbreak, wobei OLS-Trendlinien eine starke Korrelation zwischen prompt-basierten und tuning-basierten Schwachstellen anzeigen.
Die allgemeine Schlussfolgerung der umfangreichen Tests, die von den Forschern durchgeführt wurden (deren unermüdliche Strenge das Paper zu einem schwierigen Lesen gegen Ende macht), ist, dass das Jailbreak-Tuning zuverlässig effektiver ist als andere Feinabstimmungsstrategien, wobei die Ablehnungsraten zusammenbrechen, auch wenn die schädlichen Daten nur einen kleinen Bruchteil des Trainingsdatensatzes ausmachen.
Angriffe, die als Prompts allein erfolgreich sind, funktionieren auch besser, wenn sie in die Feinabstimmung eingebettet sind, und scheinbar harmlose Datensätze, die schädlichen Beispielen in Ton oder Struktur ähneln, können das Problem verschlimmern; am besorgniserregendsten ist, dass die Forscher nicht bestimmen konnten, warum diese Effekte so stark sind, und berichten, dass keine bekannte Verteidigung sie zuverlässig verhindern kann, bis tiefere Einblicke in die zugrunde liegenden Mechanismen gewonnen sind.
Das Toolkit, das die Autoren open-source veröffentlicht haben (siehe Link früher in dem Artikel), enthält die vollständigen und vergifteten Versionen der Datensätze, die in den Experimenten verwendet wurden, und deckt konkurrierende Ziele, unpassende Verallgemeinerung, Backdoors und rohe schädliche Eingaben ab. Diese Varianten sollten es Entwicklern ermöglichen, Feinabstimmungs-APIs gegen bekannte Angriffstypen zu testen und die Wirksamkeit verschiedener Verteidigungen zu vergleichen.
Schlussfolgerung
Wenn gut finanzierte und hoch motivierte Unternehmen wie OpenAI das Spiel des “Zensur-Whack-a-Mole” nicht gewinnen können, könnte argumentiert werden, dass die gegenwärtige und wachsende Tendenz zur Regulierung und Überwachung von lokal installierten KI-Systemen auf einer falschen Annahme basiert: dass, wie bei Alkohol, Marihuana und Zigaretten, die “Wild-West-Ära” der KI in eine hoch regulierte Landschaft evolvieren muss – auch wenn die Regulierungsmechanismen derzeit noch relativ leicht zu umgehen sind, trotz des scheinbar sicheren Kontexts des API-only-Zugriffs.
* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks,
Erstveröffentlichung Donnerstag, 17. Juli 2025












