Connect with us

HiddenLayer’s EchoGram-rapport advarer om en ny klasse af angreb, der undergraver AI-sikkerhedsforanstaltninger

Rapporter

HiddenLayer’s EchoGram-rapport advarer om en ny klasse af angreb, der undergraver AI-sikkerhedsforanstaltninger

mm

Den nyudgivne EchoGram-rapport fra HiddenLayer leverer en af de klareste advarsler hidtil om, at i dagens AI-sikkerhedsforanstaltninger er mere skrøbelige, end de ser ud til. På ni sider med tekniske beviser og eksperimenter viser HiddenLayer, hvordan angribere kan manipulere guardrail-systemer – de klassificeringslag og LLM-as-a-judge-komponenter, der gennemtvinger sikkerheds politikker – ved hjælp af korte, tilsyneladende meningsløse token-sekvenser, der pålideligt ændrer deres udtalelser. En ondsindet prompt, der burde være detekteret som usikker, kan være markeret som sikker blot ved at tilføje en bestemt token. Omvendt kan en helt harmløs input være misklassificeret som ondsindet. Gennem hele rapporten viser HiddenLayer, at disse sekvenser ændrer kun guardrail’ens fortolkning af prompten, ikke de underliggende instruktioner, der leveres til downstream-modellen.

Sårbarheden af moderne guardrails

Guardrails er blevet grundlæggende for, hvordan organisationer implementerer store sprogmodeller. De fungerer som den første og ofte eneste forsvarslinje, der skal detektere jailbreaks, prompt-injektioner, ikke tilladte anmodninger eller manipulerende instruktioner, før LLM nogensinde behandler dem. HiddenLayer’s fund viser, at denne beskyttende lag deler systemiske svagheder, der er direkte knyttet til, hvordan disse guardrails er trænet. Fordi mange afhænger af lignende datasæt, mønstre eller sikkerhedstaksonomier, er de sårbare over for de samme typer token-niveau-manipulationer, som EchoGram afslører.

Hvordan EchoGram konstruerer sine angrebssekvenser

EchoGram’s proces begynder med at generere en pulje af kandidat-token, der kan påvirke en models dom. HiddenLayer forklarer, at disse token kan identificeres ved at analysere lingvistiske mønstre i datasæt, der normalt bruges til at træne guardrails, eller ved direkte at afprøve en models tokenizer-vokabular, når white-box-adgang er tilgængelig. Træningsdataene selv bliver en kort over forudsigelser, der afslører, hvilke sekvenser, der er fordrejet mod “sikre” eller “usikre” klassificeringer. Disse ubalancer danner det råmateriale for angrebet.

Når denne pulje er samlet, evaluerer EchoGram hver sekvens ved at tilføje den til en række ondsindede prompts og måle, hvor ofte token ændrer guardrail’ens klassificering. Rapporten indeholder et slående eksempel, hvor en lille, meningsløs sekvens transformerer flere kendte prompt-injektionsforsøg fra “detekteret” til “sikker”, når de testes mod en kommerciel klassificator. De ondsindede prompts forbliver intakte, men den tilføjede sekvens omformulerer, hvordan guardrail’en fortolker dem.

Hvorfor token-kombinationer er særligt farlige

EchoGram-rapporten fremhæver, at selv om en enkelt token kun delvist ændrer udtalelser, producerer kombinationen af flere svage token en dramatisk stærkere effekt. HiddenLayer demonstrerer denne forstærkning ved hjælp af Qwen3Guard, en bredt anvendt open-source LLM-as-a-judge-moderationsmodel. På både 0,6B- og 4B-varianten forårsagede EchoGram-sekvenserne, at guardrail’en misklassificerede højt farlige prompts – herunder forespørgsler om våben, godkendelsesomgåelser og cyberangreb – som sikre eller kun mildt bekymringsvækkende.

Denne effekt bestod på tværs af modelskalaer, hvilket støtter HiddenLayer’s konklusion om, at sårbarheden er rodnet i den underliggende træningsmetode snarere end modelskala eller kompleksitet.

Den falske-positiv-vektor: En mindre synlig, men lige så alvorlig risiko

EchoGram er ikke kun en metode til at omgå guardrails; HiddenLayer viser, at det også kan bruges til at generere falske positiver i stor skala. Ved at væve EchoGram-sekvenser ind i ellers harmløse input kan en angriber få en guardrail til at misklassificere uskadelige prompts som ondsindede. Rapporten giver eksempler på, hvor simple konversationsfraser bliver markeret som angreb, når en EchoGram-token er tilføjet eller indlejret i teksten.

Dette skaber en vej for at overvælde sikkerheds- eller tillid- og sikkerhedshold med støj. Når advarslerne stiger ukontrollerbart, kan organisationer missede virkelige trusler begravet inden for oversvømmelsen. Erosionen af tillid til interne værktøjer bliver lige så skadelig som enhver vellykket omgåelse.

Konsekvenser for AI-sikkerhed

Den EchoGram-rapport understreger, at guardrails, der er trænet på lignende datakilder, mønstre eller taksonomier, sandsynligvis deler de samme sårbarheder. En angriber, der opdager en succesfuld EchoGram-sekvens, kunne potentielt genbruge den på tværs af multiple kommercielle platforme, virksomhedsinstallationer og regeringsystemer. HiddenLayer betoner, at angribere ikke behøver at kompromittere den downstream LLM; de behøver kun at bedrage gatekeeperen foran den.

Denne udfordring strækker sig ud over teknisk risiko. Organisationer kan antage, at implementeringen af en guardrail sikrer meningsfuld beskyttelse, men EchoGram demonstrerer, at denne antagelse er farlig. Hvis guardrail’en kan vendes med en token eller to, bliver hele sikkerhedsarkitekturen utroværdig.

Vejen fremad

HiddenLayer konkluderer, at EchoGram skal fungere som et vendepunkt i, hvordan industrien tilgår AI-sikkerhed. Guardrails kan ikke afhænge af statiske datasæt eller enkelt-træningscykler. De kræver kontinuerlig adversarial testning, gennemsigtighed omkring træningsmetoder og multi-lag-validering snarere end enkelt-model-dom. Da AI bliver integreret i kritisk infrastruktur, finans, sundhedsvesen og national sikkerhed, bliver svaghederne, der afsløres af EchoGram, presserende snarere end akademiske.

Rapporten afslutter med en opfordring til at behandle guardrails som sikkerheds-kritiske komponenter, der kræver samme rigor, der anvendes på enhver anden beskyttelses-system. Ved at afsløre disse sårbarheder nu, skyder HiddenLayer industrien mod at bygge AI-forsvar, der kan modstå den næste generation af adversarial-teknikker.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.