Report

HiddenLayer’s EchoGram Report Warns of a New Class of Attacks Undermining AI Guardrails

Published November 16, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Il recentemente pubblicato rapporto EchoGram di HiddenLayer fornisce uno degli avvertimenti più chiari fino ad ora che i meccanismi di sicurezza dell’AI attuali sono più fragili di quanto appaiano. In nove pagine di prove tecniche e sperimentazioni, HiddenLayer dimostra come gli attaccanti possano manipolare i sistemi di guardrail – quei layer di classificatore e componenti LLM-as-a-judge che applicano le politiche di sicurezza – utilizzando brevi sequenze di token apparentemente senza senso che ribaltano in modo affidabile i loro verdetti. Un prompt malizioso che dovrebbe essere rilevato come insicuro può essere contrassegnato come sicuro semplicemente appendendo un token specifico. Al contrario, un input del tutto inoffensivo può essere mal classificato come malizioso. In tutto il rapporto, HiddenLayer mostra che queste sequenze alterano solo l’interpretazione del guardrail del prompt, non le istruzioni sottostanti fornite al modello downstream.

La fragilità delle moderne guardrails

Guardrails sono diventate fondamentali per il modo in cui le organizzazioni distribuiscono grandi modelli linguistici. Servono come prima e spesso unica linea di difesa, intesa a rilevare jailbreaks, iniezioni di prompt, richieste non consentite o istruzioni manipolative prima che il LLM le elabori. Le scoperte di HiddenLayer rivelano che questo strato protettivo condivide debolezze sistemiche legate direttamente a come queste guardrails sono formate. Poiché molte dipendono da dataset simili, pattern o tassonomie di sicurezza, sono vulnerabili ai same tipi di manipolazioni a livello di token che EchoGram scopre.

Come EchoGram costruisce le sue sequenze di attacco

Il processo di EchoGram inizia generando un pool di token candidati che potrebbero influenzare il giudizio di un modello. HiddenLayer spiega che questi token possono essere identificati analizzando pattern linguistici nei dataset comunemente utilizzati per formare le guardrails o proponendo direttamente il vocabolario del tokenizer di un modello quando è disponibile l’accesso white-box. I dati di formazione stessi diventano una mappa di pregiudizi, rivelando quali sequenze sono inclini verso classificazioni “sicure” o “insicure”. Queste disparità formano il materiale grezzo dell’attacco.

Una volta assemblato questo pool, EchoGram valuta ogni sequenza appendendola a un set di prompt maliziosi e misurando con quale frequenza il token ribalta la classificazione del guardrail. Il rapporto include un esempio sorprendente in cui una piccola sequenza senza senso trasforma diversi tentativi noti di iniezione di prompt da “rilevati” a “sicuri” quando testati contro un classificatore commerciale. I prompt maliziosi rimangono intatti, ma la sequenza appesa riforma come il guardrail li interpreta.

Perché le combinazioni di token sono particolarmente pericolose

Il rapporto EchoGram sottolinea che anche quando un singolo token ribalta solo parzialmente i verdetti, combinare più token deboli produce un effetto drasticamente più forte. HiddenLayer dimostra questo ampliamento utilizzando Qwen3Guard, un modello di moderazione LLM-as-a-judge open-source ampiamente utilizzato. Sia nella variante 0.6B che in quella 4B, le sequenze EchoGram concatenate hanno causato al guardrail di mal classificare prompt pericolosi – inclusi query su armi, bypass di autenticazione e attacchi informatici – come sicuri o solo lievemente preoccupanti.

Questo effetto persiste attraverso le dimensioni del modello, rafforzando la conclusione di HiddenLayer che la vulnerabilità è radicata nella metodologia di formazione sottostante piuttosto che nella scala o complessità del modello.

Il vettore di falsi positivi: un rischio meno visibile ma altrettanto grave

EchoGram non è solo un metodo per bypassare le guardrails; HiddenLayer mostra che può anche essere utilizzato per generare falsi positivi su larga scala. Intrecciando sequenze EchoGram in input altrimenti inoffensivi, un attaccante può causare al guardrail di mal classificare prompt benigni come maliziosi. Il rapporto fornisce esempi in cui semplici frasi conversazionali vengono segnalate come attacchi una volta che un token EchoGram viene appeso o incorporato nel testo.

Ciò crea un canale per sovraccaricare i team di sicurezza o di fiducia e sicurezza con rumore. Quando gli allarmi aumentano incontrollabilmente, le organizzazioni potrebbero perdere minacce reali sepolte all’interno dell’alluvione. L’erosione della fiducia negli strumenti interni diventa altrettanto dannosa quanto qualsiasi bypass di successo.

Implicazioni per la sicurezza dell’AI

Il rapporto EchoGram sottolinea che le guardrails formate su fonti di dati simili, pattern o tassonomie sono probabili condividere le stesse vulnerabilità. Un attaccante che scopre una sequenza EchoGram di successo potrebbe potenzialmente riutilizzarla su più piattaforme commerciali, distribuzioni aziendali e sistemi governativi. HiddenLayer sottolinea che gli attaccanti non devono compromettere il downstream LLM. Devono solo ingannare il custode davanti ad esso.

Questa sfida si estende oltre il rischio tecnico. Le organizzazioni potrebbero supporre che il deploy di una guardrail garantisca una protezione significativa, ma EchoGram dimostra che questa supposizione è precaria. Se la guardrail può essere ribaltata con un token o due, l’intera architettura di sicurezza diventa inaffidabile.

La strada ahead

HiddenLayer conclude che EchoGram dovrebbe servire come punto di svolta nel modo in cui l’industria si avvicina alla sicurezza dell’AI. Le guardrails non possono dipendere da dataset statici o cicli di formazione one-off. Richiedono test di adversarial continui, trasparenza intorno ai metodi di formazione e convalida multi-layer piuttosto che giudizi di un singolo modello. Mentre l’AI diventa integrata in infrastrutture critiche, finanza, sanità e sicurezza nazionale, le carenze illuminate da EchoGram diventano urgenti piuttosto che accademiche.

Il rapporto termina con un appello a trattare le guardrails come componenti critici di sicurezza che richiedono la stessa rigore applicata a qualsiasi altro sistema protettivo. Esporre queste vulnerabilità ora, HiddenLayer spinge l’industria verso la costruzione di difese dell’AI in grado di resistere alla prossima generazione di tecniche avversarie.

Related Topics:EchoGram hiddenlayer reports

Antoine Tardif, CEO & Founder of Unite.AI

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.

Unite.AI

HiddenLayer’s EchoGram Report Warns of a New Class of Attacks Undermining AI Guardrails

La fragilità delle moderne guardrails

Come EchoGram costruisce le sue sequenze di attacco

Perché le combinazioni di token sono particolarmente pericolose

Il vettore di falsi positivi: un rischio meno visibile ma altrettanto grave

Implicazioni per la sicurezza dell’AI

La strada ahead

You may like