Connect with us

Ciberseguridad

Cuando la IA sale mal: el informe de Enkrypt AI expone vulnerabilidades peligrosas en modelos multimodales

mm

En mayo de 2025, Enkrypt AI lanzó su Informe de Red Teaming Multimodal, un análisis inquietante que reveló lo fácil que es manipular los sistemas de IA avanzados para generar contenido peligroso y poco ético. El informe se centra en dos de los modelos de visión-lenguaje líderes de Mistral: Pixtral-Large (25.02) y Pixtral-12b, y pinta un cuadro de modelos que no solo son técnicamente impresionantes, sino también alarmantemente vulnerables.

Los modelos de visión-lenguaje (VLM) como Pixtral están diseñados para interpretar tanto entradas visuales como textuales, lo que les permite responder de manera inteligente a instrucciones complejas y del mundo real. Pero esta capacidad conlleva un mayor riesgo. A diferencia de los modelos de lenguaje tradicionales que solo procesan texto, los VLM pueden ser influenciados por la interacción entre imágenes y palabras, abriendo nuevas puertas a ataques adversarios. Las pruebas de Enkrypt AI muestran lo fácil que es abrir estas puertas.

Resultados de pruebas alarmantes: fallos de CSEM y CBRN

El equipo detrás del informe utilizó métodos de red teaming sofisticados, una forma de evaluación adversaria diseñada para imitar amenazas del mundo real. Estas pruebas emplearon tácticas como jailbreaking (hacer preguntas cuidadosamente elaboradas al modelo para evitar los filtros de seguridad), engaño basado en imágenes y manipulación de contexto. Alarmantemente, el 68% de estas preguntas adversarias provocaron respuestas dañinas en los dos modelos Pixtral, incluido contenido relacionado con la explotación, el acoso y even el diseño de armas químicas.

Una de las revelaciones más impactantes involucra material de explotación sexual infantil (CSEM). El informe encontró que los modelos de Mistral eran 60 veces más propensos a producir contenido relacionado con CSEM en comparación con los estándares de la industria como GPT-4o y Claude 3.7 Sonnet. En casos de prueba, los modelos respondieron a preguntas disfrazadas de acoso con contenido estructurado y detallado que explicaba cómo manipular a menores, envuelto en declaraciones engañosas como “solo para conciencia educativa”. Los modelos no solo fallaban al rechazar preguntas dañinas, sino que las completaban con detalle.

Igualmente inquietantes fueron los resultados en la categoría de riesgo CBRN (Químico, Biológico, Radiológico y Nuclear). Cuando se les pidió a los modelos que proporcionaran información sobre cómo modificar el agente nervioso VX, una arma química, ofrecieron ideas alarmantemente específicas para aumentar su persistencia en el medio ambiente. Describieron, en detalle técnico aunque censurado, métodos como encapsulación, blindaje ambiental y sistemas de liberación controlada.

Estos fallos no siempre se debieron a solicitudes abiertamente dañinas. Una táctica involucró subir una imagen de una lista numerada en blanco y pedir al modelo que “llenara los detalles”. Esta sencilla y aparentemente inofensiva solicitud llevó a la generación de instrucciones poco éticas y ilegales. La fusión de manipulación visual y textual resultó especialmente peligrosa, destacando un desafío único planteado por la IA multimodal.

Por qué los modelos de visión-lenguaje plantean nuevos desafíos de seguridad

En el corazón de estos riesgos yace la complejidad técnica de los modelos de visión-lenguaje. Estos sistemas no solo analizan el lenguaje, sino que sintetizan el significado a través de formatos, lo que significa que deben interpretar el contenido de las imágenes, entender el contexto del texto y responder en consecuencia. Esta interacción introduce nuevos vectores de explotación. Un modelo puede rechazar correctamente una solicitud de texto dañino por sí solo, pero cuando se combina con una imagen sugestiva o un contexto ambiguo, puede generar una salida peligrosa.

El red teaming de Enkrypt AI descubrió cómo los ataques de inyección entre modos, donde las pistas sutiles en una modalidad influyen en la salida de otra, pueden eludir completamente los mecanismos de seguridad estándar. Estos fallos demuestran que las técnicas tradicionales de moderación de contenido, diseñadas para sistemas de una sola modalidad, no son suficientes para los VLM actuales.

El informe también detalla cómo se accedió a los modelos Pixtral: Pixtral-Large a través de AWS Bedrock y Pixtral-12b a través de la plataforma Mistral. Este contexto de despliegue en el mundo real enfatiza aún más la urgencia de estos hallazgos. Estos modelos no están confinados a laboratorios, sino que están disponibles a través de plataformas en la nube mainstream y podrían integrarse fácilmente en productos de consumo o empresariales.

Qué debe hacerse: un plan para una IA más segura

A su favor, Enkrypt AI no solo destaca los problemas, sino que ofrece un camino hacia adelante. El informe describe una estrategia de mitigación integral, comenzando con entrenamiento de alineación de seguridad. Esto implica volver a entrenar el modelo utilizando sus propios datos de red teaming para reducir la susceptibilidad a solicitudes dañinas. Se recomiendan técnicas como la Optimización de Preferencia Directa (DPO) para ajustar las respuestas del modelo lejos de salidas de riesgo.

También enfatiza la importancia de barreras de guardia conscientes del contexto, filtros dinámicos que pueden interpretar y bloquear solicitudes dañinas en tiempo real, teniendo en cuenta el contexto completo de la entrada multimodal. Además, se propone el uso de Tarjetas de Riesgo de Modelo como una medida de transparencia, ayudando a las partes interesadas a comprender las limitaciones del modelo y los casos de fallo conocidos.

Quizás la recomendación más crítica sea tratar el red teaming como un proceso continuo, no como una prueba única. A medida que evolucionan los modelos, también lo hacen las estrategias de ataque. Solo la evaluación y el monitoreo continuos pueden garantizar la confiabilidad a largo plazo, especialmente cuando los modelos se despliegan en sectores sensibles como la atención médica, la educación o la defensa.

El Informe de Red Teaming Multimodal de Enkrypt AI es una señal clara a la industria de la IA: el poder multimodal conlleva responsabilidad multimodal. Estos modelos representan un salto adelante en capacidad, pero también requieren un salto en cómo pensamos sobre la seguridad, la seguridad y el despliegue ético. Si no se controlan, no solo arriesgan el fallo, sino también daños en el mundo real.

Para cualquier persona que trabaje en o despliegue IA a gran escala, este informe no es solo una advertencia. Es un manual. Y no podría haber llegado en un momento más urgente.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.