Líderes de opinión

La próxima ola de ataques multimodales: Cuando las herramientas de inteligencia artificial se convierten en la nueva superficie de explotación

Publicado el 9 de enero de 2026

Actualizado el 17 de mayo de 2026

Por

Amanda Rousseau, Investigadora Principal de Seguridad de Inteligencia Artificial, Straiker

Como los grandes modelos de lenguaje (LLM) evolucionan hacia sistemas multimodales que pueden manejar texto, imágenes, voz y código, también se están convirtiendo en poderosos orquestadores de herramientas y conectores externos. Con esta evolución, surge una superficie de ataque expandida que las organizaciones deben tener en cuenta.

Un ejemplo destacado de esto es la ingeniería social, que los agentes pueden ser víctimas porque fueron entrenados para actuar como los humanos y tienen aún menos escepticismo. Un agente, por ejemplo, es poco probable que pueda determinar la diferencia entre un correo electrónico spoofed y uno de un minorista legítimo.

La convergencia de la multimodalidad y el acceso a herramientas transforma a la inteligencia artificial de asistente a medio de ataque. Los atacantes ahora pueden utilizar instrucciones de texto simples para desencadenar el mal uso de herramientas, ejecutar acciones no autorizadas o exfiltrar datos sensibles a través de canales legítimos. Debido a que estas capacidades están diseñadas para la accesibilidad, no para la defensa, incluso los adversarios de baja habilidad pueden aprovechar los sistemas de inteligencia artificial para realizar operaciones complejas sin escribir una sola línea de código.

Cómo la inteligencia artificial multimodal se convierte en una cadena de explotación

Los LLM están convirtiéndose cada vez más en orquestadores de sistemas externos, con integraciones que incluyen hoy en día desde APIs hasta correo electrónico, almacenamiento en la nube y herramientas de ejecución de código. Estos conectores a menudo se construyen para la accesibilidad, no para la defensa.

El lado negativo de esto es que puede generar una oleada de nuevos exploits.

Uno de ellos es el mal uso de herramientas impulsado por instrucciones. Por ejemplo, un atacante podría utilizar una imagen con instrucciones de inyección de instrucciones insertadas en un correo electrónico. Una herramienta de reconocimiento óptico de caracteres (OCR) es necesaria para extraer el texto de una imagen. El agente está instruido para responder al correo electrónico y adjuntar un mapa de Google a la dirección del objetivo, desanonymizando así la ubicación de la víctima.

Otro mecanismo es la evasión de guardias entre modos. Esto se relaciona con los guardias que se encuentran entre los puntos de entrada y salida de las herramientas. Por ejemplo, al analizar la salida de un extractor de OCR, es posible que no haya un guardia lo suficientemente fuerte alrededor de las inyecciones de instrucciones descubiertas a partir de su salida.

También hay debilidades estructurales que se pueden explotar. Uno de estos problemas es la unión suelta y excesivamente permisiva entre el modelo y las herramientas externas que puede llamar, lo que significa que una instrucción de lenguaje natural simple puede desencadenar acciones reales como ejecutar código, acceder a archivos o interactuar con el correo electrónico. Además, muchos de estos sistemas carecen de controles de acceso estrictos, por lo que la inteligencia artificial puede tener la capacidad de escribir, eliminar o modificar datos mucho más allá de lo que un humano autorizaría. El problema se vuelve aún más grave cuando se consideran los conectores y las extensiones de estilo MCP, que a menudo vienen con casi ninguna guardia; una vez conectados, amplían el alcance de la inteligencia artificial en almacenamiento personal, buzones y plataformas en la nube con muy poca supervisión. Juntos, estas debilidades estructurales crean un entorno en el que los problemas de seguridad clásicos, como la exfiltración, el escape de sandbox y incluso la intoxicación de memoria, pueden desencadenarse mediante nada más que una instrucción astutamente diseñada.

Amenazas emergentes: ¿Qué viene a continuación?

En este nuevo normal, los ataques de ingeniería social y correo electrónico habilitados por inteligencia artificial son inminentes. El volumen de phishing aumentará debido al uso de LLM por parte del atacante; el punto de estrangulamiento es eludir los filtros de spam normales de los proveedores de correo electrónico como Google. Los agentes conectados al buzón aumentan la probabilidad de que los ataques de phishing tengan éxito. Es probable que haya un aumento en las amenazas basadas en correo electrónico a medida que los usuarios conecten agentes a Gmail o Outlook.

Los atacantes pueden dirigir a la inteligencia artificial para ejecutar campañas de spam o phishing completas. En este escenario,

el phishing de inteligencia artificial a inteligencia artificial es plausible.

Los sistemas multimodales ofrecen cada vez más capacidades de ejecución de código. Las rutas de escape permiten a los atacantes violar la infraestructura subyacente. Y los escapes de sandbox representan la peor pesadilla de reputación para los proveedores.

La intoxicación de memoria a largo plazo y los desencadenadores diferidos representan amenazas adicionales. La memoria persistente permite que las cargas ocultas se activen en futuras instrucciones. Los desencadenadores entre modos (por ejemplo, imágenes o fragmentos de texto) podrían desencadenar comportamientos de bomba de tiempo.

Por qué los ataques multimodales son tan accesibles y tan peligrosos

La inteligencia artificial ha democratizado las capacidades de ataque. Los usuarios ya no necesitan habilidades de codificación o desarrollo de malware; el lenguaje natural se convierte en la interfaz para la creación de malware o la exfiltración de datos. Esto significa que incluso los individuos no técnicos pueden generar malware o ejecutar campañas a través de instrucciones.

La inteligencia artificial también permite la aceleración y la escalabilidad de operaciones dañinas. Los agentes multimodales pueden automatizar el trabajo que antes requería esfuerzo experto. El código, los correos electrónicos, la investigación y la inteligencia pueden producirse instantáneamente.

La confianza excesiva del usuario y la exposición no intencional contribuyen al potencial de daño de la inteligencia artificial. Los usuarios a menudo no entienden qué puede acceder la inteligencia artificial, y los ajustes predeterminados cada vez más autohabilitan las integraciones de inteligencia artificial. Muchas personas no se dan cuenta de que han concedido a la inteligencia artificial un acceso excesivo a su correo electrónico o documentos.

Principios y controles para la seguridad multimodal

Las organizaciones deben implementar medidas de seguridad contra los ataques multimodales. Los equipos de seguridad necesitarán restringir el acceso a herramientas por defecto. Los controles de opt-in deben reemplazar las integraciones autohabilitadas. También deben aplicar el acceso de privilegios mínimos a todos los sistemas conectados a la inteligencia artificial y eliminar el acceso de escritura/eliminación. Esto debe incluir reglas de origen y lista blanca de dominios (blanqueo de infraestructura y no blanqueo de nivel de LLM).

Otro paso clave es construir guardias explícitas para la invocación de herramientas. Reemplazar los desencadenadores de lenguaje natural con validación de comandos estructurados y tipados. Las guardias deben ser tanto puntos de entrada como de salida.

Otros principios y controles importantes incluyen:

Asegurar flujos de trabajo de aprobación fuertes para operaciones sensibles.
Evitar colocar datos de usuario en la memoria del modelo persistente. Aplicar la sanitización de memoria automatizada y controles de procedencia.
Fortalecer y aislar los entornos de ejecución de código.
Supervisar comportamientos sospechosos y intentos de escape.
Fortalecer la educación y la transparencia del usuario.
Agregar más confirmación del usuario cuando el agente realiza tareas de riesgo.
Aclarar cuándo las herramientas de inteligencia artificial acceden a correos electrónicos, archivos o recursos en la nube.
Advertir a los usuarios sobre conectores de alto riesgo.

Superar los ataques multimodales

Las tecnologías de inteligencia artificial se han convertido rápidamente en agentes de las operaciones comerciales, creando una situación en la que el lenguaje natural en sí se convierte en una forma de explotación. La convergencia de la multimodalidad y el acceso a herramientas abre la superficie de ataque, convirtiendo a la inteligencia artificial de asistente en un medio de ataque. Los ataques multimodales explotan la integración suelta entre los LLM y los sistemas externos que controlan, como las API, el almacenamiento de archivos y las plataformas de automatización.

Como las amenazas evolucionan, las organizaciones deben adoptar estrategias que tengan en cuenta explícitamente las rutas de ataque multimodales. Fortalecer las defensas utilizando las mejores prácticas anteriores es esencial para evitar que las herramientas de inteligencia artificial sirvan involuntariamente como eslabones en la cadena de explotación de un atacante.