Inteligencia artificial
¿Qué es la poesía adversarial? Un nuevo método de jailbreak de IA
La seguridad de la inteligencia artificial (IA) se ha convertido en un juego constante de gato y ratón. A medida que los desarrolladores agregan barreras para bloquear solicitudes dañinas, los atacantes continúan intentando nuevas formas de eludirlas. Uno de los giros más extraños hasta ahora es la poesía adversarial. Esta táctica implica disfrazar las solicitudes como verso y utilizar rima, metáfora y frases inusuales para hacer que las instrucciones riesgosas parezcan menos como las cosas que los sistemas de seguridad están diseñados para detectar.
En la práctica, el contenido en sí no cambia mucho. Es el envoltorio lo que cambia, lo que puede ser suficiente para confundir a los filtros basados en patrones. Es un recordatorio de que, con los modelos de hoy, cómo se hace algo puede importar casi tanto como lo que se está pidiendo.
¿Qué sucedió cuando los investigadores utilizaron poemas para romper la IA?
A principios de 2025, los investigadores demostraron que los grandes modelos de lenguaje (LLM) podían ser instados a responder a solicitudes restringidas envolviéndolas en forma poética. En lugar de emitir instrucciones directas que desencadenaran políticas, los investigadores insertaron las mismas solicitudes dentro de rimas, metáforas y versos narrativos.
En la superficie, las solicitudes parecían ejercicios de escritura creativa, pero debajo, llevaban la misma intención que normalmente sería bloqueada. A través de 25 modelos propietarios y de peso abierto de vanguardia, el equipo informó que el marco poético logró una tasa de éxito de jailbreak promedio de 62% para poemas hechos a mano y alrededor del 43% para la “conversión de verso” a granel utilizando un meta-prompt estandarizado.
Las respuestas en sí no fueron nuevos tipos de fallos, sino fallos familiares que aparecieron a través de una puerta inesperada. Los modelos fueron empujados a producir contenido que normalmente evitan, como explicaciones que tocan actividades ilegales o dañinas, porque la solicitud subyacente estaba fragmentada y oscurecida por la estructura poética.
La idea principal del estudio es que la variación estilística sola puede ser suficiente para eludir los sistemas de seguridad ajustados para una fraseología más literal. Revela una vulnerabilidad que es evidente en todas las familias de modelos y enfoques de alineación.
¿Cómo funciona la poesía adversarial?
Los ataques adversarios explotan una realidad simple: los sistemas de aprendizaje automático no “entienden” el lenguaje de la misma manera que los humanos. Detección de patrones, predicción de continuaciones probables y seguimiento de instrucciones basadas en lo que sus capas de entrenamiento y seguridad interpretan como intención.
Cuando una solicitud se formula de manera directa y literal, es más fácil para las barreras reconocer y bloquear. Sin embargo, cuando el mismo propósito se disfraza, se divide, se suaviza o se reformula, las capas protectoras pueden perder lo que realmente se está pidiendo.
¿Por qué la poesía puede ser un vehículo eficaz?
La poesía está naturalmente construida para la ambigüedad. Confía en metáfora, abstracción, estructura inusual y fraseología indirecta. Estos son exactamente los tipos de características que pueden difuminar la línea entre “escritura creativa inofensiva” y “una solicitud que debería ser rechazada”.
En el mismo estudio de 2025, los investigadores informaron que las solicitudes poéticas provocaron respuestas inseguras a una tasa de éxito del 90% en un conjunto amplio de modelos, lo que indica que el estilo solo puede cambiar materialmente los resultados.
¿Cómo un poema oculta una solicitud real?
Considera la solicitud como un mensaje y el poema como el embalaje. Los filtros de seguridad a menudo buscan signos obvios, como palabras clave explícitas, fraseología directa paso a paso o intención maliciosa reconocible.
La poesía puede ocultar esa intención a través del lenguaje figurado o extenderla a lo largo de líneas, lo que la hace más difícil de detectar en aislamiento. Mientras tanto, el modelo subyacente todavía reconstruye el significado lo suficientemente bien como para responder porque está optimizado para inferir la intención incluso cuando el lenguaje es indirecto.
Detección y mitigación de jailbreaks
A medida que los métodos de jailbreak se vuelven más creativos, la conversación debe cambiar de cómo funcionan a cómo se detectan y contienen. Eso es especialmente cierto ahora que la IA es parte de las rutinas diarias de muchas personas, ya que el 27% informa que la utiliza varias veces al día.
A medida que más personas utilizan grandes modelos de lenguaje (LLM), se deben probar y explorar salvaguardas adicionales. Esta tarea implica construir defensas en capas que puedan adaptarse a nuevos estilos de solicitudes y trucos de evasión a medida que surgen.
El dilema del desarrollador
La parte más difícil sobre los jailbreaks para los equipos de seguridad de la IA es que no vienen como una amenaza conocida. Cambian continuamente con el tiempo. Este cambio constante se debe a que un usuario puede reexpresar una solicitud, dividirla en fragmentos, envolverla en un juego de roles o disfrazarla como escritura creativa. Luego, cada nuevo embalaje puede cambiar cómo el sistema interpreta la intención de la solicitud.
Ese desafío se escala rápidamente cuando la IA ya está integrada en las rutinas diarias, por lo que el uso real crea oportunidades infinitas para que aparezcan casos límite.
Es por eso que la seguridad de la IA de hoy se parece más a la gestión de riesgos con el tiempo. El marco de gestión de riesgos de IA de NIST (AI RMF) trata explícitamente la gestión de riesgos como un conjunto de actividades en curso —organizado alrededor de gobernar, mapear, medir y gestionar— en lugar de como una lista de verificación estática. El objetivo es crear procesos que faciliten la identificación de modos de fallo emergentes, priorizar reparaciones y fortalecer las salvaguardas a medida que aparecen nuevos estilos de jailbreak.
¿Cómo los modelos se protegen a sí mismos?
La seguridad de la IA consta de varias capas. La mayoría de los sistemas tienen más de una defensa trabajando juntas, con cada una capturando diferentes tipos de comportamiento riesgoso. En la capa exterior, el filtrado de entrada y salida actúa como un portero.
Las solicitudes entrantes se escaneán en busca de violaciones de políticas antes de que lleguen al modelo central, mientras que las respuestas salientes se verifican para asegurarse de que nada se filtre en el camino de regreso al usuario. Estos sistemas son buenos para identificar solicitudes directas o señales de alarma familiares, pero también son los más fáciles de eludir, por lo que los jailbreaks más engañosos a menudo los evitan.
La siguiente capa de protección ocurre dentro del modelo en sí. Cuando se descubren técnicas de jailbreak, a menudo se convierten en ejemplos de entrenamiento. Es aquí donde entra en juego el entrenamiento adversario y el aprendizaje de refuerzo a partir de retroalimentación humana (RLHF).
Al ajustar los modelos con ejemplos de interacciones fallidas o riesgosas, los desarrolladores enseñan efectivamente al sistema a reconocer patrones que debería rechazar, incluso cuando están envueltos en lenguaje creativo o indirecto. Con el tiempo, ese proceso ayuda a inmunizar al modelo contra clases enteras de ataques.
El papel del “red teaming” de IA
En lugar de esperar a que ocurra un jailbreak, las empresas utilizan equipos de “red teaming” de IA. Estos equipos son grupos encargados de intentar romper los modelos en entornos controlados. Se acercan a los sistemas de la manera que lo haría un atacante, experimentando con fraseología inusual, formatos creativos y casos límite para descubrir dónde fallan las salvaguardas.
El objetivo es exponer puntos débiles antes de que aparezcan en el uso del mundo real. El “red teaming” se está convirtiendo ahora en una parte fundamental del ciclo de vida de desarrollo en las estrategias de ciberseguridad de hoy. Cuando un equipo descubre una nueva técnica de jailbreak, los datos resultantes se alimentan directamente en las tuberías de entrenamiento y evaluación. Esa información se utiliza para definir filtros, ajustar políticas y fortalecer el entrenamiento adversario para que intentos similares sean menos probable que tengan éxito en el futuro. Con el tiempo, esto crea un ciclo continuo: probar fallos, aprender de ellos y mejorar el sistema, luego repetir.
¿Cuándo la poesía se convierte en una prueba de estrés para la seguridad de la IA?
La poesía adversarial es un recordatorio de que las salvaguardas de la IA dependen de cómo un usuario formula las preguntas, no solo de qué. A medida que los modelos se vuelven más accesibles y ampliamente utilizados, los investigadores continuarán probando las brechas entre el lenguaje creativo y los sistemas de seguridad diseñados para detectar intenciones más directas. La moraleja es que una IA más segura vendrá de múltiples defensas que evolucionen tan rápido como los jailbreaks.












