Report
HiddenLayer’s EchoGram Report Warns of a New Class of Attacks Undermining AI Guardrails

Il recentemente pubblicato rapporto EchoGram di HiddenLayer fornisce uno degli avvertimenti più chiari fino ad ora che i meccanismi di sicurezza dell’AI attuali sono più fragili di quanto appaiano. In nove pagine di prove tecniche e sperimentazioni, HiddenLayer dimostra come gli attaccanti possano manipolare i sistemi di guardrail – quei layer di classificatore e componenti LLM-as-a-judge che applicano le politiche di sicurezza – utilizzando brevi sequenze di token apparentemente senza senso che ribaltano in modo affidabile i loro verdetti. Un prompt malizioso che dovrebbe essere rilevato come insicuro può essere contrassegnato come sicuro semplicemente appendendo un token specifico. Al contrario, un input del tutto inoffensivo può essere mal classificato come malizioso. In tutto il rapporto, HiddenLayer mostra che queste sequenze alterano solo l’interpretazione del guardrail del prompt, non le istruzioni sottostanti fornite al modello downstream.
La fragilità delle moderne guardrails
Guardrails sono diventate fondamentali per il modo in cui le organizzazioni distribuiscono grandi modelli linguistici. Servono come prima e spesso unica linea di difesa, intesa a rilevare jailbreaks, iniezioni di prompt, richieste non consentite o istruzioni manipolative prima che il LLM le elabori. Le scoperte di HiddenLayer rivelano che questo strato protettivo condivide debolezze sistemiche legate direttamente a come queste guardrails sono formate. Poiché molte dipendono da dataset simili, pattern o tassonomie di sicurezza, sono vulnerabili ai same tipi di manipolazioni a livello di token che EchoGram scopre.
Come EchoGram costruisce le sue sequenze di attacco
Il processo di EchoGram inizia generando un pool di token candidati che potrebbero influenzare il giudizio di un modello. HiddenLayer spiega che questi token possono essere identificati analizzando pattern linguistici nei dataset comunemente utilizzati per formare le guardrails o proponendo direttamente il vocabolario del tokenizer di un modello quando è disponibile l’accesso white-box. I dati di formazione stessi diventano una mappa di pregiudizi, rivelando quali sequenze sono inclini verso classificazioni “sicure” o “insicure”. Queste disparità formano il materiale grezzo dell’attacco.
Una volta assemblato questo pool, EchoGram valuta ogni sequenza appendendola a un set di prompt maliziosi e misurando con quale frequenza il token ribalta la classificazione del guardrail. Il rapporto include un esempio sorprendente in cui una piccola sequenza senza senso trasforma diversi tentativi noti di iniezione di prompt da “rilevati” a “sicuri” quando testati contro un classificatore commerciale. I prompt maliziosi rimangono intatti, ma la sequenza appesa riforma come il guardrail li interpreta.
Perché le combinazioni di token sono particolarmente pericolose
Il rapporto EchoGram sottolinea che anche quando un singolo token ribalta solo parzialmente i verdetti, combinare più token deboli produce un effetto drasticamente più forte. HiddenLayer dimostra questo ampliamento utilizzando Qwen3Guard, un modello di moderazione LLM-as-a-judge open-source ampiamente utilizzato. Sia nella variante 0.6B che in quella 4B, le sequenze EchoGram concatenate hanno causato al guardrail di mal classificare prompt pericolosi – inclusi query su armi, bypass di autenticazione e attacchi informatici – come sicuri o solo lievemente preoccupanti.
Questo effetto persiste attraverso le dimensioni del modello, rafforzando la conclusione di HiddenLayer che la vulnerabilità è radicata nella metodologia di formazione sottostante piuttosto che nella scala o complessità del modello.
Il vettore di falsi positivi: un rischio meno visibile ma altrettanto grave
EchoGram non è solo un metodo per bypassare le guardrails; HiddenLayer mostra che può anche essere utilizzato per generare falsi positivi su larga scala. Intrecciando sequenze EchoGram in input altrimenti inoffensivi, un attaccante può causare al guardrail di mal classificare prompt benigni come maliziosi. Il rapporto fornisce esempi in cui semplici frasi conversazionali vengono segnalate come attacchi una volta che un token EchoGram viene appeso o incorporato nel testo.
Ciò crea un canale per sovraccaricare i team di sicurezza o di fiducia e sicurezza con rumore. Quando gli allarmi aumentano incontrollabilmente, le organizzazioni potrebbero perdere minacce reali sepolte all’interno dell’alluvione. L’erosione della fiducia negli strumenti interni diventa altrettanto dannosa quanto qualsiasi bypass di successo.
Implicazioni per la sicurezza dell’AI
Il rapporto EchoGram sottolinea che le guardrails formate su fonti di dati simili, pattern o tassonomie sono probabili condividere le stesse vulnerabilità. Un attaccante che scopre una sequenza EchoGram di successo potrebbe potenzialmente riutilizzarla su più piattaforme commerciali, distribuzioni aziendali e sistemi governativi. HiddenLayer sottolinea che gli attaccanti non devono compromettere il downstream LLM. Devono solo ingannare il custode davanti ad esso.
Questa sfida si estende oltre il rischio tecnico. Le organizzazioni potrebbero supporre che il deploy di una guardrail garantisca una protezione significativa, ma EchoGram dimostra che questa supposizione è precaria. Se la guardrail può essere ribaltata con un token o due, l’intera architettura di sicurezza diventa inaffidabile.
La strada ahead
HiddenLayer conclude che EchoGram dovrebbe servire come punto di svolta nel modo in cui l’industria si avvicina alla sicurezza dell’AI. Le guardrails non possono dipendere da dataset statici o cicli di formazione one-off. Richiedono test di adversarial continui, trasparenza intorno ai metodi di formazione e convalida multi-layer piuttosto che giudizi di un singolo modello. Mentre l’AI diventa integrata in infrastrutture critiche, finanza, sanità e sicurezza nazionale, le carenze illuminate da EchoGram diventano urgenti piuttosto che accademiche.
Il rapporto termina con un appello a trattare le guardrails come componenti critici di sicurezza che richiedono la stessa rigore applicata a qualsiasi altro sistema protettivo. Esporre queste vulnerabilità ora, HiddenLayer spinge l’industria verso la costruzione di difese dell’AI in grado di resistere alla prossima generazione di tecniche avversarie.












