Cybersicherheit
Versteckte Ebene Forscher umgehen OpenAI’s Schutzmechanismen und entlarven einen kritischen Fehler in der AI-Selbstmoderation

Am 6. Oktober 2025 kündigte OpenAI AgentKit an, ein Toolkit für den Bau, die Bereitstellung und die Verwaltung von KI-Agenten. Eine seiner Komponenten ist Schutzmechanismen – eine modulare Sicherheitsebene, die dafür konzipiert ist, die Eingaben, Ausgaben und Tool-Interaktionen von Agenten zu überwachen, um Missbrauch, Datenlecks oder schädliches Verhalten zu verhindern. Schutzmechanismen können personenbezogene Daten maskieren oder markieren, Jailbreaks erkennen und Richtlinienbeschränkungen neben der Agentenausführung anwenden.
Während Schutzmechanismen ein neu veröffentlichter Teil von OpenAI’s Agentenarchitektur sind, legt HiddenLayers Forschung eine tiefere Verwundbarkeit dar: Da sowohl die Aktionen des Agenten als auch die Sicherheitsprüfungen ähnliche Modelllogik verwenden, können Angreifer Eingaben konstruieren, die beide gleichzeitig untergraben – die Sicherheitsebene effektiv von innen heraus brechen.
Was HiddenLayer entdeckte
OpenAI’s Design stellt sich Agenten vor, die durch verkettete Logik operieren: Ein Benutzer gibt eine Anfrage ein, der Agent ruft Tools oder externe Ressourcen auf und die Antworten werden von Schutzmechanismen gefiltert oder validiert, bevor sie ausgeführt oder ausgegeben werden. Die Absicht ist, dass der Agent, egal was er tut – sei es Text generieren, eine Webseite abrufen oder eine Funktion auslösen -, Schutzmechanismen als Wächter fungiert.
HiddenLayer argumentiert, dass dieser Wächter strukturell fehlerhaft ist, wenn er aus der gleichen Klasse von Modell gebaut ist, die er schützt. In ihren Experimenten konstruierten sie Anfragen, die doppelte Dienste leisten: Sie zwingen das Agentenmodell, Inhalte zu generieren, die gegen die Richtlinie verstoßen und manipulieren das Schutzmechanismen-Modell, um zu erklären, dass der Inhalt “sicher” ist. Effektiv enthält die Anfrage eine Übersteuerung der internen Logik des Richters – seine Vertrauensschwellen, Entscheidungsverzweigungen -, so dass der Richter falsch den schädlichen Ausgang passt. Das System produziert dann nicht zugelassene Inhalte, ohne dass ein Alarm ausgelöst wird.
Sie trieben den Angriff weiter, indem sie indirekte Inhaltsinjektionen angriffen, wie z. B. Tool-basierte Abrufaufrufe. Angenommen, der Agent ruft eine Webseite ab, die schädliche Anweisungen oder versteckte Anfragen enthält. Schutzmechanismen sollten dies markieren oder blockieren, aber HiddenLayers Technik integriert eine Übersteuerung des Richters in den abgerufenen Inhalt selbst. Wenn der Richter dies verarbeitet, sieht er die Übersteuerung und “genehmigt” sie, so dass der Tool-Aufruf und jeder schädliche Inhalt, den er zurückgibt, ungeprüft passieren.
Die tiefere Lektion ist klar: Wenn Ihre Sicherheitsmechanismen mit der gleichen Logik und den gleichen Verwundbarkeiten wie das Ding, das sie schützen, gebaut sind, kann eine einzige clevere Anfrage beide brechen.
Warum dies wichtig ist
Was HiddenLayer aufgedeckt hat, ist nicht nur ein Bug – es ist eine warnende Geschichte darüber, wie wir Sicherheit in LLM-Systemen konzipieren. Jede Architektur, die auf die gleiche Modellklasse für Erzeugung und Auswertung setzt, riskiert gemeinsame Ausfälle unter adversarialen Eingaben.
Das bedeutet, dass viele Bereitsteller, die dachten “wir haben Schutzmechanismen, also sind wir sicher”, das Risiko unterschätzen könnten. In harmlosen, alltäglichen Anwendungsfällen könnten ihre Filter wirksam erscheinen, aber in adversarialen Szenarien könnten sie stillschweigend fehlschlagen. In Bereichen wie Gesundheitswesen, Finanzen, Regierung oder kritischen Systemen könnten solche stillen Zusammenbrüche zu ernsthaften Schäden führen.
Diese Forschung baut auch auf früheren Prompt-Injektionsmethoden auf. HiddenLayers frühere ” Policy Puppetry“-Technik zeigte, wie Angreifer schädliche Anweisungen als Richtlinieninhalte verkleiden können. Jetzt zeigen sie, dass solche maskierten Angriffe sich in die Sicherheitslogik selbst erstrecken können.
Auswirkungen für Bereitsteller und Forscher
Im Lichte dieser Verwundbarkeit muss jeder, der agente LLM-Systeme verwendet oder baut, seine Sicherheitsstrategie überdenken.
Erstens: verlassen Sie sich nicht ausschließlich auf interne modellbasierte Prüfungen. Sicherheit muss geschichtet sein. Das bedeutet, Regel-basierte Filter, Anomalie-Erkennungssysteme, Protokollsysteme, externe Überwachung, menschliche Aufsicht und Prüfspuren zu kombinieren. Wenn eine Ebene fehlschlägt, könnten andere den Bruch possibly fangen.
Zweitens: regelmäßige adversarial Red-Teaming ist unverzichtbar. Modelle sollten Prompt-Injektionen ausgesetzt werden, die versuchen, die eigene Schutzlogik selbst zu übersteuern – nicht nur “schlechten Inhalt”. Tests müssen sich weiterentwickeln, während Angreifer neue Techniken erfinden.
Drittens: In regulierten oder sicherheitskritischen Sektoren sind Transparenz und Überprüfbarkeit essentiell. Bereitsteller benötigen den Beweis, dass ein System adversarialen Angriffen standhalten kann, nicht nur grundlegende Funktionalität. Das legt nahe, dass Drittanbieter-Prüfungen, formale Verifizierung oder Sicherheitsgarantien zu Anforderungen werden könnten.
Viertens: Für Modellbauer ist das Beheben dieser Klasse von Verwundbarkeit schwierig. Da es mit der Art und Weise zusammenhängt, wie Modelle Anweisungen verstehen und befolgen, garantiert das Filtern einer Klasse von Anfragen nicht die Widerstandsfähigkeit gegen neue. Feinabstimmung oder filterbasierte Verteidigungen können die Modellleistung verschlechtern oder zu Wettrüsten führen. Eine robustere Konstruktion kann architektonische Trennung erfordern – Schutzlogik, die in einem anderen Modell oder Subsystem als dem Generierungsmodell läuft.
Einschränkungen und offene Fragen
Um klar zu sein: HiddenLayers Arbeit ist ein Proof-of-Concept, kein endgültiges Urteil über jede Sicherheitsarchitektur. Ihre erfolgreichen Angriffe hängen von tiefem Wissen über die Prompt-Struktur und die interne Bewertungslogik des Schutzmodells ab. In mehr eingeschränkten Prompt-Umgebungen oder Systemen, die Verteidigungen randomisieren, kann der Angriff schwieriger zu montieren sein.
Außerdem analysieren sie nicht vollständig, wie kohärent oder nützlich die schädlichen Ausgaben sind, wenn sie unter diesen Einschränkungen konstruiert werden. Einige Jailbreak- oder Übersteuerungsausgaben können in Qualität oder Zuverlässigkeit abnehmen. Das Risiko ist also real, aber durch Umgebung, Prompt-Budget, Schnittstellen-Einschränkungen und Schutz-Zufälligkeit eingeschränkt.
Schließlich verwenden einige Schutzmechanismen-Designs unterschiedliche Modellklassen, Ensemble-Methoden oder randomisierte Bewertung. Es ist nicht sicher, dass jedes solche System anfällig ist; ob dieser Angriff weit verbreitet ist, ist eine offene Forschungsfrage.
Blick in die Zukunft: Die Zukunft der KI-Sicherheit
Wir scheinen in eine neue Phase einzutreten: Prompt-Angriffe nicht nur gegen Modelle, sondern gegen ihre Sicherheitsebenen. Techniken wie chain-of-thought hijacking, hierarchische Prompt-Subversion und Richter-Übersteuerung werden die Verteidigungen zwingen, sich schneller zu entwickeln.
Der Weg nach vorne ist wahrscheinlich in Richtung externer Überwachung – Systeme, die Ausgaben von außen überwachen, nicht die Modelllogik teilen oder Sicherheit durch externe Prüfungen durchsetzen. Hybride Architekturen, formale Methoden, Anomalie-Erkennung und menschliche Feedback-Schleifen werden zusammenkommen müssen.
Schutzmechanismen sind ein nützliches Werkzeug, aber HiddenLayers Ergebnisse erinnern uns daran: Sie können nicht das einzige Werkzeug sein. Sicherheit muss von außerhalb des Systems kommen, nicht nur von innen.












