Informes

Informe EchoGram de HiddenLayer advierte sobre una nueva clase de ataques que socavan los guardrails de la IA

Published November 16, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

El recientemente publicado informe EchoGram de HiddenLayer entrega una de las advertencias más claras hasta ahora de que los mecanismos de seguridad de la IA de hoy son más frágiles de lo que parecen. A lo largo de nueve páginas de evidencia técnica y experimentación, HiddenLayer demuestra cómo los atacantes pueden manipular los sistemas de guardrail —esas capas de clasificador y componentes de LLM-as-a-juez que hacen cumplir las políticas de seguridad— utilizando secuencias de tokens cortas y aparentemente sin sentido que invierten sus veredictos de manera fiable. Un prompt malicioso que debería ser detectado como inseguro puede ser marcado como seguro simplemente agregando un token específico. Por el contrario, una entrada completamente inofensiva puede ser mal clasificada como maliciosa. A lo largo del informe, HiddenLayer muestra que estas secuencias alteran solo la interpretación del guardrail del prompt, no las instrucciones subyacentes entregadas al modelo downstream.

La fragilidad de los guardrails modernos

Guardrails se han convertido en fundamentales para la forma en que las organizaciones despliegan grandes modelos de lenguaje. Sirven como la primera y a menudo única línea de defensa, destinada a detectar jailbreaks, inyecciones de prompt, solicitudes no permitidas o instrucciones manipuladoras antes de que el LLM las procese. Los hallazgos de HiddenLayer revelan que esta capa protectora comparte debilidades sistémicas vinculadas directamente a cómo se entrenan estos guardrails. Debido a que muchos dependen de conjuntos de datos, patrones o taxonomías de seguridad similares, son vulnerables a los mismos tipos de manipulaciones a nivel de token que EchoGram descubre.

Cómo EchoGram construye sus secuencias de ataque

El proceso de EchoGram comienza generando un grupo de tokens candidatos que podrían influir en el juicio de un modelo. HiddenLayer explica que estos tokens pueden identificarse analizando patrones lingüísticos en conjuntos de datos comúnmente utilizados para entrenar guardrails o probando directamente el vocabulario del tokenizador de un modelo cuando se tiene acceso white-box. Los datos de entrenamiento en sí se convierten en un mapa de sesgos, revelando qué secuencias se inclinan hacia clasificaciones “seguras” o “inseguras”. Esos desequilibrios forman el material raw del ataque.

Una vez que se ensambla este grupo, EchoGram evalúa cada secuencia agregándola a un conjunto de prompts maliciosos y midiendo con qué frecuencia el token invierte la clasificación del guardrail. El informe incluye un ejemplo impactante donde una secuencia pequeña y sin sentido transforma varios intentos de inyección de prompt conocidos de “detectados” a “seguros” cuando se prueba contra un clasificador comercial. Los prompts maliciosos permanecen intactos, pero la secuencia agregada redefine cómo el guardrail interpreta estos.

Por qué las combinaciones de tokens son especialmente peligrosas

El informe EchoGram destaca que incluso cuando un solo token solo invierte parcialmente los veredictos, combinar múltiples tokens débiles produce un efecto dramáticamente más fuerte. HiddenLayer demuestra esta amplificación utilizando Qwen3Guard, un modelo de moderación LLM-as-a-juez de código abierto ampliamente utilizado. En las variantes 0.6B y 4B, las secuencias encadenadas de EchoGram causaron que el guardrail mal clasificara prompts peligrosos —incluyendo consultas sobre armas, evasiones de autenticación y ciberataques— como seguros o solo ligeramente preocupantes.

Este efecto persistió a través de tamaños de modelo, reforzando la conclusión de HiddenLayer de que la vulnerabilidad está arraigada en la metodología de entrenamiento subyacente en lugar del tamaño o la complejidad del modelo.

El vector de falsos positivos: un riesgo menos visible pero igualmente grave

EchoGram no es solo un método para eludir guardrails; HiddenLayer muestra que también se puede utilizar para generar falsos positivos a gran escala. Al tejer secuencias de EchoGram en entradas inofensivas, un atacante puede causar que un guardrail mal clasifique prompts benignos como maliciosos. El informe proporciona ejemplos donde frases conversacionales simples son marcadas como ataques una vez que se agrega o incrusta un token de EchoGram en el texto.

Esto crea una vía para abrumar a los equipos de seguridad o de confianza y seguridad con ruido. Cuando las alertas aumentan incontrolablemente, las organizaciones pueden perderse amenazas reales enterradas dentro de la inundación. La erosión de la confianza en las herramientas internas se vuelve tan dañina como cualquier elusión exitosa.

Implicaciones para la seguridad de la IA

El informe EchoGram subraya que los guardrails entrenados en fuentes de datos, patrones o taxonomías similares probablemente compartan las mismas vulnerabilidades. Un atacante que descubre una secuencia de EchoGram exitosa podría potencialmente reutilizarla en múltiples plataformas comerciales, despliegues empresariales y sistemas gubernamentales. HiddenLayer enfatiza que los atacantes no necesitan comprometer el LLM downstream. Solo necesitan engañar al guardián que está frente a él.

Este desafío se extiende más allá del riesgo técnico. Las organizaciones pueden asumir que desplegar un guardrail garantiza una protección significativa, pero EchoGram demuestra que esta suposición es precaria. Si el guardrail puede ser invertido con un token o dos, toda la arquitectura de seguridad se vuelve poco confiable.

El camino adelante

HiddenLayer concluye que EchoGram debería servir como un punto de inflexión en cómo la industria aborda la seguridad de la IA. Los guardrails no pueden depender de conjuntos de datos estáticos o ciclos de entrenamiento de una sola vez. Requieren pruebas adversas continuas, transparencia sobre los métodos de entrenamiento y validación en capas múltiples en lugar de juicios de un solo modelo. A medida que la IA se incorpora a infraestructuras críticas, finanzas, salud y seguridad nacional, las deficiencias iluminadas por EchoGram se vuelven urgentes en lugar de académicas.

El informe informe termina con un llamado a tratar a los guardrails como componentes críticos de seguridad que exigen el mismo rigor aplicado a cualquier otro sistema de protección. Al exponer estas vulnerabilidades ahora, HiddenLayer impulsa a la industria hacia la construcción de defensas de IA capaces de soportar la próxima generación de técnicas adversas.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.

Unite.AI

Informe EchoGram de HiddenLayer advierte sobre una nueva clase de ataques que socavan los guardrails de la IA

La fragilidad de los guardrails modernos

Cómo EchoGram construye sus secuencias de ataque

Por qué las combinaciones de tokens son especialmente peligrosas

El vector de falsos positivos: un riesgo menos visible pero igualmente grave

Implicaciones para la seguridad de la IA

El camino adelante

You may like