Connect with us

HiddenLayer’s EchoGram-Bericht warnt vor einer neuen Klasse von Angriffen, die die AI-Schutzmechanismen untergraben

Berichte

HiddenLayer’s EchoGram-Bericht warnt vor einer neuen Klasse von Angriffen, die die AI-Schutzmechanismen untergraben

mm

Der neu veröffentlichte EchoGram-Bericht von HiddenLayer liefert eine der deutlichsten Warnungen, dass die heutigen AI-Sicherheitsmechanismen brüchiger sind, als sie erscheinen. Über neun Seiten technischer Beweise und Experimente zeigt HiddenLayer, wie Angreifer die Schutzmechanismen – diese Klassifizierungs-Schichten und LLM-as-a-Judge-Komponenten, die Sicherheitsrichtlinien durchsetzen – mithilfe kurzer, scheinbar sinnloser Token-Sequenzen manipulieren können, die ihre Urteile zuverlässig umkehren. Ein bösartiger Prompt, der als unsicher erkannt werden sollte, kann einfach durch Anhängen eines bestimmten Tokens als sicher markiert werden. Umgekehrt kann ein völlig harmloser Input als bösartig fehlklassifiziert werden. Im gesamten Bericht zeigt HiddenLayer, dass diese Sequenzen nur die Interpretation des Schutzmechanismus ändern, nicht die zugrunde liegenden Anweisungen, die an das Downstream-Modell geliefert werden.

Die Zerbrechlichkeit moderner Schutzmechanismen

Schutzmechanismen sind zu einem grundlegenden Bestandteil der Art und Weise geworden, wie Organisationen große Sprachmodelle einsetzen. Sie dienen als erste und oft einzige Verteidigungslinie, die darauf abzielt, Jailbreaks, Prompt-Injektionen, nicht zugelassene Anfragen oder manipulative Anweisungen vor dem LLM zu erkennen. Die Erkenntnisse von HiddenLayer zeigen, dass diese Schutzschicht systemische Schwächen aufweist, die direkt mit der Art und Weise zusammenhängen, wie diese Schutzmechanismen trainiert werden. Da viele auf ähnlichen Datensätzen, Mustern oder Sicherheitstaxonomien basieren, sind sie anfällig für die gleichen Arten von Token-Manipulationen, die EchoGram aufdeckt.

Wie EchoGram seine Angriffssequenzen konstruiert

Der Prozess von EchoGram beginnt mit der Generierung eines Pools von Kandidatentoken, die das Urteil eines Modells beeinflussen könnten. HiddenLayer erklärt, dass diese Token durch die Analyse von sprachlichen Mustern in Datensätzen identifiziert werden können, die häufig zum Trainieren von Schutzmechanismen verwendet werden, oder durch direktes Abtasten des Tokenizers-Vokabulars, wenn White-Box-Zugriff verfügbar ist. Die Trainingsdaten selbst werden zu einer Karte von Vorurteilen, die zeigen, welche Sequenzen zu “sicheren” oder “unsicheren” Klassifizierungen neigen. Diese Ungleichgewichte bilden das Rohmaterial des Angriffs.

Sobald dieser Pool zusammengestellt ist, bewertet EchoGram jede Sequenz, indem es sie einer Reihe von bösartigen Prompts anhängt und misst, wie oft das Token die Klassifizierung des Schutzmechanismus umkehrt. Der Bericht enthält ein auffallendes Beispiel, in dem eine kurze, sinnlose Sequenz mehrere bekannte Prompt-Injektionsversuche von “erkannt” zu “sicher” umwandelt, wenn sie gegen einen kommerziellen Klassifizierer getestet wird. Die bösartigen Prompts bleiben intakt, aber die angehängte Sequenz verändert, wie der Schutzmechanismus sie interpretiert.

Warum Token-Kombinationen besonders gefährlich sind

Der EchoGram-Bericht hebt hervor, dass sogar wenn ein einzelnes Token nur teilweise die Urteile umkehrt, die Kombination mehrerer schwacher Token einen dramatisch stärkeren Effekt produziert. HiddenLayer demonstriert diese Verstärkung mithilfe von Qwen3Guard, einem weit verbreiteten Open-Source-LLM-as-a-Judge-Modell. Bei den 0,6B- und 4B-Varianten verursachten die verketteten EchoGram-Sequenzen, dass der Schutzmechanismus hochgefährliche Prompts – einschließlich Anfragen zu Waffen, Authentifizierungsumgehungen und Cyberangriffen – als sicher oder nur mäßig besorgniserregend fehlklassifizierte.

Dieser Effekt hielt sich über die Modellgrößen hinweg, was HiddenLayers Schlussfolgerung unterstreicht, dass die Verwundbarkeit in der zugrunde liegenden Trainingsmethodik und nicht in der Modellgröße oder -komplexität verwurzelt ist.

Der False-Positive-Vektor: Ein weniger sichtbares, aber gleichwertig ernstes Risiko

EchoGram ist nicht nur eine Methode, um Schutzmechanismen zu umgehen, sondern HiddenLayer zeigt auch, dass es verwendet werden kann, um False-Positives im großen Maßstab zu generieren. Durch die Einwebung von EchoGram-Sequenzen in ansonsten harmlose Eingaben kann ein Angreifer verursachen, dass ein Schutzmechanismus harmlose Prompts als bösartig fehlklassifiziert. Der Bericht liefert Beispiele, in denen einfache Konversationsphrasen als Angriffe markiert werden, sobald ein EchoGram-Token angehängt oder in den Text eingebettet wird.

Dies eröffnet eine Möglichkeit, Sicherheits- oder Trust-and-Safety-Teams mit Rauschen zu überfluten. Wenn Warnungen unkontrollierbar ansteigen, können Organisationen reale Bedrohungen übersehen, die in der Flut vergraben sind. Die Erosion des Vertrauens in interne Werkzeuge wird ebenso schädlich wie jeder erfolgreiche Umgehung.

Auswirkungen auf die AI-Sicherheit

Der EchoGram-Bericht unterstreicht, dass Schutzmechanismen, die auf ähnlichen Datenquellen, Mustern oder Taxonomien trainiert werden, wahrscheinlich die gleichen Verwundbarkeiten aufweisen. Ein Angreifer, der eine erfolgreiche EchoGram-Sequenz entdeckt, könnte diese potenziell auf mehrere kommerzielle Plattformen, Unternehmenseinsätze und Regierungssysteme anwenden. HiddenLayer betont, dass Angreifer nicht das Downstream-LLM gefährden müssen. Sie müssen nur den Torwächter davor täuschen.

Diese Herausforderung geht über das technische Risiko hinaus. Organisationen könnten annehmen, dass die Bereitstellung eines Schutzmechanismus einen bedeutenden Schutz gewährleistet, aber EchoGram zeigt, dass diese Annahme prekär ist. Wenn der Schutzmechanismus mit einem Token oder zwei umgekehrt werden kann, wird die gesamte Sicherheitsarchitektur unzuverlässig.

Der Weg nach vorn

HiddenLayer kommt zu dem Schluss, dass EchoGram als Wendepunkt dienen sollte, wie die Branche die AI-Sicherheit angeht. Schutzmechanismen können nicht auf statischen Datensätzen oder einmaligen Trainingszyklen basieren. Sie erfordern kontinuierliche adversarische Tests, Transparenz über Trainingsmethoden und mehrschichtige Validierung anstelle von Ein-Modell-Urteilen. Da AI in kritische Infrastrukturen, Finanzen, Gesundheitswesen und nationale Sicherheit eingebettet wird, werden die durch EchoGram aufgezeigten Mängel dringend und nicht akademisch.

Der Bericht endet mit einem Aufruf, Schutzmechanismen als sicherheitskritische Komponenten zu behandeln, die die gleiche Strenge erfordern wie jedes andere Schutzsystem. Durch die Offenlegung dieser Verwundbarkeiten jetzt drängt HiddenLayer die Branche, AI-Verteidigungen aufzubauen, die den nächsten Generationen von adversativen Techniken standhalten können.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.