Rapporter

HiddenLayers EchoGram-rapport advarer om en ny klasse angrep som undergraver AI-sikkerhetsskiller

Published November 16, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Den nylig publiserte EchoGram-rapporten av HiddenLayer leverer en av de tydeligste advarslene hittil om at dagens AI-sikkerhetsmekanismer er mer skjøre enn de ser ut til. Over ni sider med tekniske bevis og eksperimenter, demonstrerer HiddenLayer hvordan angripere kan manipulere sikkerhetsskillersystemer – disse klassifiseringslagene og LLM-as-a-judge-komponentene som påtvinger sikkerhetspolitikk – ved hjelp av korte, tilsynelatende meningsløse tokensekvenser som pålitelig endrer deres uttalelser. En skadelig prompt som bør bli oppdaget som usikker kan bli merket som trygg bare ved å legge til en bestemt token. Omvendt kan en fullstendig harmløs innputt bli feilklassifisert som skadelig. Hele rapporten viser at disse sekvensene endrer bare sikkerhetsskillers tolkning av prompten, ikke de underliggende instruksjonene som leveres til nedstrømsmodellen.

Skjørbheten til moderne sikkerhetsskiller

Sikkerhetsskiller har blitt grunnleggende for måten organisasjoner distribuerer store språkmodeller. De fungerer som den første og ofte eneste forsvarslinjen, ment å oppdage jailbreaks, prompt-injeksjoner, ikke tillatte forespørsler eller manipulative instruksjoner før LLM noen gang prosesserer dem. HiddenLayers funn viser at dette beskyttende laget deler systemiske svakheter direkte knyttet til hvordan disse sikkerhetsskillene blir trent. Fordi mange avhenger av lignende datasamlinger, mønster eller sikkerhetstaksonomier, er de sårbare for de samme typene token-nivå-manipulasjoner som EchoGram avdekker.

Hvordan EchoGram konstruerer sine angrepssekvenser

EchoGrams prosess begynner med å generere en gruppe kandidattoken som kan påvirke en modells dom. HiddenLayer forklarer at disse tokenene kan identifiseres ved å analysere lingvistiske mønster i datasamlinger som vanligvis brukes til å trene sikkerhetsskiller eller ved å direkte sondere en modells tokenizers vokabular når hvitboks-tilgang er tilgjengelig. Treningdataene selv blir en kart over fordommer, som avslører hvilke sekvenser som sklir mot “trygg” eller “usikker” klassifiseringer. Disse ubalansene danner det råmaterialet for angrepet.

Når denne gruppen er samlet, evaluerer EchoGram hver sekvens ved å legge til den til en gruppe skadelige prompter og måle hvor ofte tokenen endrer sikkerhetsskillers klassifisering. Rapporten inkluderer et slående eksempel hvor en liten, meningsløs sekvens transformerer flere kjente prompt-injeksjonsforsøk fra “oppdaget” til “trygg” når testet mot en kommersiell klassifiserer. De skadelige promptene forblir intakte, men den tilføyede sekvensen endrer hvordan sikkerhetsskillen tolker dem.

Hvorfor token-kombinasjoner er spesielt farlige

EchoGram-rapporten fremhever at selv om en enkelt token bare delvis endrer uttalelser, produserer kombinasjonen av flere svake token en dramatisk sterkere effekt. HiddenLayer demonstrerer denne forsterkningen ved hjelp av Qwen3Guard, en vidt brukt åpen kilde LLM-as-a-judge-modereringsmodell. På både 0,6B og 4B-variantene, forårsaket EchoGram-sekvenser at sikkerhetsskillen feilklassifiserte høyt farlige prompter – inkludert spørsmål om våpen, autentiseringssirkulasjon og cyberangrep – som trygge eller bare mildt bekymringsverdige.

Denne effekten bestod over modellstørrelser, og støtter HiddenLayers konklusjon om at sårbarheten er rotfestet i den underliggende treningsmetoden snarere enn modellskala eller kompleksitet.

Den falske-positive vektoren: En mindre synlig men like alvorlig risiko

EchoGram er ikke bare en metode for å omgå sikkerhetsskiller; HiddenLayer viser at den også kan brukes til å generere falske positiver i stor skala. Ved å veve EchoGram-sekvenser inn i harmløse innputt, kan en angriper forårsake at en sikkerhetsskill feilklassifiserer harmløse prompter som skadelige. Rapporten gir eksempler hvor enkle konversasjonelle fraser blir flagget som angrep så snart en EchoGram-token blir lagt til eller innlemmet i teksten.

Dette skaper en åpning for å overvelde sikkerhets- eller tillits- og sikkerhetsteam med støy. Når varsler øker ukontrollert, kan organisasjoner miste virkelige trusler begravd i flommen. Erosjonen av tillit til interne verktøy blir like skadelig som noen vellykket omgåelse.

Konsekvenser for AI-sikkerhet

Den EchoGram-rapporten understreker at sikkerhetsskiller trent på lignende datasamlinger, mønster eller taksonomier sannsynligvis deler de samme sårbarhetene. En angriper som oppdager en vellykket EchoGram-sekvens kunne potensielt gjenbruke den over multiple kommersielle plattformer, bedriftsinstallasjoner og regjeringsystemer. HiddenLayer betoner at angripere ikke trenger å kompromittere den nedstrøms LLM. De trenger bare å bedra gatevaktene foran den.

Denne utfordringen strekker seg utover teknisk risiko. Organisasjoner kan anta at deployering av en sikkerhetsskill sikrer meningsfull beskyttelse, men EchoGram demonstrerer at denne antakelsen er farlig. Hvis sikkerhetsskillen kan bli flippet med en token eller to, blir hele sikkerhetsarkitekturen uansvarlig.

Vegen fremover

HiddenLayer konkluderer at EchoGram bør tjene som et vendepunkt i hvordan industrien nærmer seg AI-sikkerhet. Sikkerhetsskiller kan ikke avhenge av statiske datasamlinger eller enkelt treningscykler. De krever kontinuerlig adversarial testing, åpenhet rundt treningsmetoder og flerlagrede validering snarere enn enkeltmodell-dømmere. Ettersom AI blir innlemmet i kritisk infrastruktur, finansielle tjenester, helse og nasjonal sikkerhet, blir manglene belyst av EchoGram akutt snarere enn akademisk.

Rapporten avslutter med en oppfordring til å behandle sikkerhetsskiller som sikkerhetskritiske komponenter som krever samme rigor som noen annen beskyttelsessystem. Ved å avsløre disse sårbarhetene nå, skyver HiddenLayer industrien mot å bygge AI-forsvar som kan motstå den neste generasjonen av adversarial-teknikker.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.

Unite.AI

HiddenLayers EchoGram-rapport advarer om en ny klasse angrep som undergraver AI-sikkerhetsskiller

Skjørbheten til moderne sikkerhetsskiller

Hvordan EchoGram konstruerer sine angrepssekvenser

Hvorfor token-kombinasjoner er spesielt farlige

Den falske-positive vektoren: En mindre synlig men like alvorlig risiko

Konsekvenser for AI-sikkerhet

Vegen fremover

You may like