Raporty
Ukryta warstwa raportu EchoGram ostrzega przed nową klasą ataków podważających zabezpieczenia AI

Niedawno opublikowany raport EchoGram przez HiddenLayer dostarcza jednego z najwyraźniejszych ostrzeżeń, że dzisiejsze mechanizmy bezpieczeństwa AI są bardziej kruche, niż się wydaje. Przez dziewięć stron technicznych dowodów i eksperymentów, HiddenLayer demonstruje, jak atakujący mogą manipulować systemy zabezpieczające – te warstwy klasyfikatorów i składników LLM-as-a-judge, które egzekwują polityki bezpieczeństwa – używając krótkich, pozornie nieznaczących sekwencji tokenów, które niezawodnie odwracają ich werdykty. Złośliwe prompty, które powinny być wykryte jako niebezpieczne, mogą być oznaczone jako bezpieczne, po prostu przez dołączenie określonego tokena. Odwrotnie, całkowicie nieszkodliwe dane wejściowe mogą być błędnie sklasyfikowane jako szkodliwe. Na przestrzeni raportu, HiddenLayer pokazuje, że te sekwencje zmieniają tylko interpretację zabezpieczeń, a nie podstawowe instrukcje dostarczane do modelu downstream.
Kruchość nowoczesnych zabezpieczeń
Zabezpieczenia stały się podstawą sposobu, w jaki organizacje wdrażają duże modele językowe. Służą jako pierwsza i często jedyna linia obrony, mająca na celu wykrycie jailbreaków, iniekcji promptów, zabronionych żądań lub manipulacyjnych instrukcji przed tym, jak model LLM je przetworzy. Odkrycia HiddenLayer ujawniają, że ta warstwa ochronna posiada słabości systemowe związane bezpośrednio ze sposobem, w jaki te zabezpieczenia są szkolone. Ponieważ wiele z nich opiera się na podobnych zbiorach danych, wzorcach lub taksonomiach bezpieczeństwa, są one podatne na te same rodzaje manipulacji na poziomie tokenów, które EchoGram ujawnia.
Jak EchoGram konstruuje swoje sekwencje ataków
Proces EchoGram rozpoczyna się od generowania puli kandydujących tokenów, które mogą wpłynąć na osąd modelu. HiddenLayer wyjaśnia, że te tokeny mogą być zidentyfikowane przez analizę wzorców językowych w zbiorach danych powszechnie używanych do szkolenia zabezpieczeń lub przez bezpośrednie sondowanie słownika tokenizatora modelu, gdy dostęp jest white-box. Dane szkoleniowe same w sobie stają się mapą predyspozycji, ujawniając, które sekwencje są przekrzywione w kierunku „bezpiecznych” lub „niebezpiecznych” klasyfikacji. Te niedobory stanowią surowy materiał ataku.
Gdy ta pula jest złożona, EchoGram ocenia każdą sekwencję, dołączając ją do zestawu złośliwych promptów i mierząc, jak często token odwraca klasyfikację zabezpieczeń. Raport zawiera uderzający przykład, w którym mała, nieznacząca sekwencja przekształca kilka znanych prób iniekcji promptów z „wykrytych” na „bezpieczne”, gdy testowane są na komercyjnym klasyfikatorze. Złośliwe prompty pozostają nienaruszone, ale dołączona sekwencja zmienia, w jaki sposób zabezpieczenia interpretują je.
Dlaczego kombinacje tokenów są szczególnie niebezpieczne
Raport EchoGram podkreśla, że nawet gdy pojedynczy token tylko częściowo odwraca werdykty, łączenie wielu słabych tokenów produkuje dramatycznie silniejszy efekt. HiddenLayer demonstruje ten efekt wzmacniający, używając Qwen3Guard, powszechnie używanego modelu moderacji LLM-as-a-judge open-source. Na wariantach 0,6B i 4B, łańcuchowe sekwencje EchoGram spowodowały, że zabezpieczenia błędnie sklasyfikowały bardzo niebezpieczne prompty – w tym zapytania o broń, obejścia uwierzytelniania i ataki cybernetyczne – jako bezpieczne lub tylko umiarkowanie niepokojące.
Ten efekt utrzymywał się we wszystkich rozmiarach modeli, wzmacniając wniosek HiddenLayer, że podatność ta jest zakorzeniona w podstawowej metodzie szkolenia, a nie w skali lub złożoności modelu.
Wektor fałszywie pozytywny: mniej widoczne, ale równie poważne ryzyko
EchoGram nie jest tylko metoda na ominięcie zabezpieczeń; HiddenLayer pokazuje, że może być również użyty do generowania fałszywych pozytywów na dużą skalę. Przez wplatanie sekwencji EchoGram w inne nieszkodliwe dane wejściowe, atakujący może spowodować, że zabezpieczenia błędnie sklasyfikują nieszkodliwe prompty jako złośliwe. Raport zawiera przykłady, w których proste frazy konwersacyjne są oznaczone jako ataki, gdy token EchoGram jest dołączony lub osadzony w tekście.
To tworzy drogę do zalewania zespołów bezpieczeństwa lub zaufania i bezpieczeństwa szumem. Gdy alerty rosną niekontrolowanie, organizacje mogą przegapić prawdziwe zagrożenia ukryte w powodzi. Erozja zaufania do wewnętrznych narzędzi staje się równie szkodliwa, jak każde udane ominięcie.
Wnioski dla bezpieczeństwa AI
Raport EchoGram podkreśla, że zabezpieczenia szkolone na podobnych źródłach danych, wzorcach lub taksonomiach są prawdopodobnie narażone na te same słabości. Atakujący, który odkryje jedną udaną sekwencję EchoGram, mógłby potencjalnie ponownie użyć jej w wielu komercyjnych platformach, wdrożeniach przedsiębiorstw i systemach rządowych. HiddenLayer podkreśla, że atakującym nie trzeba naruszać modelu LLM downstream. Wystarczy, że wprowadzą w błąd strażnika przed nim.
To wyzwanie sięga poza ryzyko techniczne. Organizacje mogą założyć, że wdrożenie zabezpieczenia zapewnia znaczącą ochronę, ale EchoGram demonstruje, że to założenie jest niepewne. Jeśli zabezpieczenie może być odwrócone przez token lub dwa, cała architektura bezpieczeństwa staje się niewiarygodna.
Droga do przodu
HiddenLayer kończy, że EchoGram powinien służyć jako punkt zwrotny w podejściu przemysłu do bezpieczeństwa AI. Zabezpieczenia nie mogą polegać na statycznych zbiorach danych lub jednorazowych cyklach szkolenia. Wymagają ciągłego testowania adversarialnego, przejrzystości wokół metod szkolenia i wielowarstwowej weryfikacji, a nie jedynie osądu modelu. Gdy AI staje się wbudowane w krytyczną infrastrukturę, finanse, opiekę zdrowotną i bezpieczeństwo narodowe, niedociągnięcia ujawnione przez EchoGram stają się pilne, a nie akademickie.
Raport kończy się wezwaniem do traktowania zabezpieczeń jako składników krytycznych dla bezpieczeństwa, które wymagają tego samego rygoru, co każdy inny system ochronny. Poprzez ujawnienie tych słabości, HiddenLayer popycha przemysł ku budowaniu obron AI, które mogą wytrzymać następną generację techniki adversarialnej.












