Connect with us

HiddenLayers EchoGram-rapport varnar för en ny klass av attacker som undergräver AI-säkerhetsåtgärder

Rapporter

HiddenLayers EchoGram-rapport varnar för en ny klass av attacker som undergräver AI-säkerhetsåtgärder

mm

Den nyligen publicerade EchoGram-rapporten av HiddenLayer levererar en av de tydligaste varningarna hittills om att dagens AI-säkerhetsmekanismer är mer sköra än de verkar. Över nio sidor med teknisk bevisning och experiment visar HiddenLayer hur angripare kan manipulera säkerhetsåtgärder – de klassificeringslager och LLM-as-a-judge-komponenter som tillämpar säkerhetsprinciper – med hjälp av korta, meningslösa tokensekvenser som tillförlitligt vänder deras utlåtanden. En skadlig prompt som borde upptäckas som osäker kan markeras som säker genom att lägga till en specifik token. Omvänt kan en helt ofarlig inmatning missklassificeras som skadlig. Genom hela rapporten visar HiddenLayer att dessa sekvenser endast ändrar säkerhetsåtgärdens tolkning av prompten, inte de underliggande instruktionerna som levereras till den nedströmsmodellen.

Den moderna säkerhetsåtgärdens skörhet

Säkerhetsåtgärder har blivit grundläggande för hur organisationer distribuerar stora språkmodeller. De fungerar som den första och ofta enda försvarslinjen, avsedd att upptäcka jailbreaks, promptinjektioner, förbjudna förfrågningar eller manipulativa instruktioner innan LLM någonsin bearbetar dem. HiddenLayers fynd visar att detta skyddsskikt delar systematiska svagheter som är direkt kopplade till hur dessa säkerhetsåtgärder tränas. Eftersom många förlitar sig på liknande datamängder, mönster eller säkerhetstaxonomier är de sårbara för samma typer av token-nivåmanipulationer som EchoGram avslöjar.

Hur EchoGram konstruerar sina attacksekvenser

EchoGrams process börjar med att generera en pool av kandidattoken som kan påverka en modells omdöme. HiddenLayer förklarar att dessa token kan identifieras genom att analysera lingvistiska mönster i datamängder som vanligtvis används för att träna säkerhetsåtgärder eller genom att direkt undersöka en modells tokenizers ordbok när white-box-åtkomst är tillgänglig. Träningsdata i sig blir en karta över fördomar, som avslöjar vilka sekvenser som lutar mot “säkra” eller “osäkra” klassificeringar. Dessa obalanser utgör det råmaterial som attacken byggs på.

När denna pool är sammansatt utvärderar EchoGram varje sekvens genom att lägga till den till en uppsättning skadliga prompter och mäta hur ofta token vänder säkerhetsåtgärdens klassificering. Rapporten innehåller ett slående exempel där en liten, meningslös sekvens förvandlar flera kända promptinjektionsförsök från “upptäckt” till “säker” när de testas mot en kommersiell klassificerare. De skadliga prompterna förblir intakta, men den tillagda sekvensen omformar hur säkerhetsåtgärden tolkar dem.

Varför tokenkombinationer är särskilt farliga

EchoGram-rapporten betonar att även när en enda token endast delvis vänder utlåtanden, producerar kombinationen av flera svaga token en dramatiskt starkare effekt. HiddenLayer demonstrerar denna förstärkning med hjälp av Qwen3Guard, en allmänt använd öppen källkods-LLM-as-a-judge-modereringsmodell. På både 0,6B- och 4B-variarter orsakade kedjade EchoGram-sekvenser att säkerhetsåtgärden missklassificerade högt farliga prompter – inklusive frågor om vapen, autentiseringsomgångar och cyberattacker – som säkra eller endast måttligt besvärande.

Denna effekt bestod över modellstorlekar, vilket förstärker HiddenLayers slutsats att sårbarheten är rotad i den underliggande träningsmetoden snarare än modellskalan eller komplexiteten.

Den falska positiva vektorn: En mindre synlig men lika allvarlig risk

EchoGram är inte bara en metod för att kringgå säkerhetsåtgärder; HiddenLayer visar att det också kan användas för att generera falska positiva resultat i stor skala. Genom att väva in EchoGram-sekvenser i ofarliga inmatningar kan en angripare orsaka att en säkerhetsåtgärd missklassificerar ofarliga prompter som skadliga. Rapporten tillhandahåller exempel där enkla konversationsfraser flaggas som attacker när en EchoGram-token läggs till eller infogas i texten.

Detta skapar en möjlighet för att övervälda säkerhets- eller trust-and-safety-team med brus. När varningar ökar okontrollerat kan organisationer missa riktiga hot som gömmer sig i flödet. Erosionen av förtroende för interna verktyg blir lika skadlig som något lyckat kringgående.

Konsekvenser för AI-säkerhet

Den EchoGram-rapporten understryker att säkerhetsåtgärder som tränas på liknande datakällor, mönster eller taxonomier sannolikt delar samma sårbarheter. En angripare som upptäcker en lyckad EchoGram-sekvens kunde potentiellt återanvända den över flera kommersiella plattformar, företagsdistributioner och regeringssystem. HiddenLayer betonar att angripare inte behöver kompromettera den nedströms LLM. De behöver bara vilseleda gatekeepern framför den.

Denna utmaning sträcker sig bortom teknisk risk. Organisationer kan anta att distributionen av en säkerhetsåtgärd säkerställer meningsfullt skydd, men EchoGram visar att denna antagande är farlig. Om säkerhetsåtgärden kan vändas med en eller två token blir hela säkerhetsarkitekturen otillförlitlig.

Vägen framåt

HiddenLayer slutsatsen är att EchoGram bör tjäna som en vändpunkt i hur branschen närmar sig AI-säkerhet. Säkerhetsåtgärder kan inte förlita sig på statiska datamängder eller enstaka träningscykler. De kräver kontinuerlig adversarial testning, transparens kring träningsmetoder och multi-lagrade validering snarare än en-modellsbedömningar. När AI blir inbäddat i kritisk infrastruktur, finans, hälsovård och nationell säkerhet blir bristerna som belysts av EchoGram brådskande snarare än akademiska.

Rapporten avslutas med en uppmaning att behandla säkerhetsåtgärder som säkerhetskritiska komponenter som kräver samma rigor som tillämpas på något annat skyddssystem. Genom att avslöja dessa sårbarheter nu driver HiddenLayer branschen mot att bygga AI-försvar som kan motstå nästa generation av adversarialtekniker.

Antoine är en visionär ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhället som elektricitet, och fångas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform som fokuserar på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.