Rapporter
HiddenLayers EchoGram-rapport advarer om en ny klasse angrep som undergraver AI-sikkerhetsskiller

Den nylig publiserte EchoGram-rapporten av HiddenLayer leverer en av de tydeligste advarslene hittil om at dagens AI-sikkerhetsmekanismer er mer skjøre enn de ser ut til. Over ni sider med tekniske bevis og eksperimenter, demonstrerer HiddenLayer hvordan angripere kan manipulere sikkerhetsskillersystemer – disse klassifiseringslagene og LLM-as-a-judge-komponentene som påtvinger sikkerhetspolitikk – ved hjelp av korte, tilsynelatende meningsløse tokensekvenser som pålitelig endrer deres uttalelser. En skadelig prompt som bør bli oppdaget som usikker kan bli merket som trygg bare ved å legge til en bestemt token. Omvendt kan en fullstendig harmløs innputt bli feilklassifisert som skadelig. Hele rapporten viser at disse sekvensene endrer bare sikkerhetsskillers tolkning av prompten, ikke de underliggende instruksjonene som leveres til nedstrømsmodellen.
Skjørbheten til moderne sikkerhetsskiller
Sikkerhetsskiller har blitt grunnleggende for måten organisasjoner distribuerer store språkmodeller. De fungerer som den første og ofte eneste forsvarslinjen, ment å oppdage jailbreaks, prompt-injeksjoner, ikke tillatte forespørsler eller manipulative instruksjoner før LLM noen gang prosesserer dem. HiddenLayers funn viser at dette beskyttende laget deler systemiske svakheter direkte knyttet til hvordan disse sikkerhetsskillene blir trent. Fordi mange avhenger av lignende datasamlinger, mønster eller sikkerhetstaksonomier, er de sårbare for de samme typene token-nivå-manipulasjoner som EchoGram avdekker.
Hvordan EchoGram konstruerer sine angrepssekvenser
EchoGrams prosess begynner med å generere en gruppe kandidattoken som kan påvirke en modells dom. HiddenLayer forklarer at disse tokenene kan identifiseres ved å analysere lingvistiske mønster i datasamlinger som vanligvis brukes til å trene sikkerhetsskiller eller ved å direkte sondere en modells tokenizers vokabular når hvitboks-tilgang er tilgjengelig. Treningdataene selv blir en kart over fordommer, som avslører hvilke sekvenser som sklir mot “trygg” eller “usikker” klassifiseringer. Disse ubalansene danner det råmaterialet for angrepet.
Når denne gruppen er samlet, evaluerer EchoGram hver sekvens ved å legge til den til en gruppe skadelige prompter og måle hvor ofte tokenen endrer sikkerhetsskillers klassifisering. Rapporten inkluderer et slående eksempel hvor en liten, meningsløs sekvens transformerer flere kjente prompt-injeksjonsforsøk fra “oppdaget” til “trygg” når testet mot en kommersiell klassifiserer. De skadelige promptene forblir intakte, men den tilføyede sekvensen endrer hvordan sikkerhetsskillen tolker dem.
Hvorfor token-kombinasjoner er spesielt farlige
EchoGram-rapporten fremhever at selv om en enkelt token bare delvis endrer uttalelser, produserer kombinasjonen av flere svake token en dramatisk sterkere effekt. HiddenLayer demonstrerer denne forsterkningen ved hjelp av Qwen3Guard, en vidt brukt åpen kilde LLM-as-a-judge-modereringsmodell. På både 0,6B og 4B-variantene, forårsaket EchoGram-sekvenser at sikkerhetsskillen feilklassifiserte høyt farlige prompter – inkludert spørsmål om våpen, autentiseringssirkulasjon og cyberangrep – som trygge eller bare mildt bekymringsverdige.
Denne effekten bestod over modellstørrelser, og støtter HiddenLayers konklusjon om at sårbarheten er rotfestet i den underliggende treningsmetoden snarere enn modellskala eller kompleksitet.
Den falske-positive vektoren: En mindre synlig men like alvorlig risiko
EchoGram er ikke bare en metode for å omgå sikkerhetsskiller; HiddenLayer viser at den også kan brukes til å generere falske positiver i stor skala. Ved å veve EchoGram-sekvenser inn i harmløse innputt, kan en angriper forårsake at en sikkerhetsskill feilklassifiserer harmløse prompter som skadelige. Rapporten gir eksempler hvor enkle konversasjonelle fraser blir flagget som angrep så snart en EchoGram-token blir lagt til eller innlemmet i teksten.
Dette skaper en åpning for å overvelde sikkerhets- eller tillits- og sikkerhetsteam med støy. Når varsler øker ukontrollert, kan organisasjoner miste virkelige trusler begravd i flommen. Erosjonen av tillit til interne verktøy blir like skadelig som noen vellykket omgåelse.
Konsekvenser for AI-sikkerhet
Den EchoGram-rapporten understreker at sikkerhetsskiller trent på lignende datasamlinger, mønster eller taksonomier sannsynligvis deler de samme sårbarhetene. En angriper som oppdager en vellykket EchoGram-sekvens kunne potensielt gjenbruke den over multiple kommersielle plattformer, bedriftsinstallasjoner og regjeringsystemer. HiddenLayer betoner at angripere ikke trenger å kompromittere den nedstrøms LLM. De trenger bare å bedra gatevaktene foran den.
Denne utfordringen strekker seg utover teknisk risiko. Organisasjoner kan anta at deployering av en sikkerhetsskill sikrer meningsfull beskyttelse, men EchoGram demonstrerer at denne antakelsen er farlig. Hvis sikkerhetsskillen kan bli flippet med en token eller to, blir hele sikkerhetsarkitekturen uansvarlig.
Vegen fremover
HiddenLayer konkluderer at EchoGram bør tjene som et vendepunkt i hvordan industrien nærmer seg AI-sikkerhet. Sikkerhetsskiller kan ikke avhenge av statiske datasamlinger eller enkelt treningscykler. De krever kontinuerlig adversarial testing, åpenhet rundt treningsmetoder og flerlagrede validering snarere enn enkeltmodell-dømmere. Ettersom AI blir innlemmet i kritisk infrastruktur, finansielle tjenester, helse og nasjonal sikkerhet, blir manglene belyst av EchoGram akutt snarere enn akademisk.
Rapporten avslutter med en oppfordring til å behandle sikkerhetsskiller som sikkerhetskritiske komponenter som krever samme rigor som noen annen beskyttelsessystem. Ved å avsløre disse sårbarhetene nå, skyver HiddenLayer industrien mot å bygge AI-forsvar som kan motstå den neste generasjonen av adversarial-teknikker.












