Connect with us

Ciberseguridad

Las Vulnerabilidades de Seguridad que Construimos: Agentes de IA y el Problema de la Obediencia

mm

Los agentes de IA basados en LLM están introduciendo una nueva clase de vulnerabilidades, donde los atacantes inyectan instrucciones maliciosas en los datos, convirtiendo a los sistemas útiles en cómplices involuntarios.

Microsoft Copilot no fue pirateado en el sentido tradicional. No hubo malware, no hubo enlaces de phishing, no hubo código malicioso. Nadie hizo clic en nada ni desplegó ninguna explotación.

El actor amenazante simplemente pidió. Microsoft 365 Copilot, haciendo exactamente lo que fue diseñado para hacer, cumplió. En el reciente ataque Echoleak de cero clics, el agente de IA fue manipulado por una solicitud disfrazada de datos. Obedeció, no porque estuviera roto, sino porque funcionaba como se diseñó.

Esta vulnerabilidad no explotó errores de software. Explotó el lenguaje. Y eso marca un punto de inflexión importante en la ciberseguridad, donde la superficie de ataque ya no es el código, sino la conversación.

El Nuevo Problema de Obediencia de la IA

Los agentes de IA están diseñados para ayudar. Su propósito es entender la intención del usuario y actuar sobre ella de manera eficiente. Esa utilidad conlleva un riesgo. Cuando se integran en sistemas de archivos, plataformas de productividad o sistemas operativos, estos agentes siguen comandos de lenguaje natural con poca resistencia.

Los actores amenazantes están explotando exactamente ese rasgo. Con inyecciones de solicitudes que parecen inofensivas, pueden desencadenar acciones sensibles. Estas solicitudes pueden incluir:

  • Fragmentos de código multilingües
  • Formatos de archivo oscuros y instrucciones incrustadas
  • Entradas de lenguaje no inglés
  • Comandos de varios pasos ocultos en lenguaje casual

Debido a que los grandes modelos de lenguaje (LLM) están entrenados para entender la complejidad y la ambigüedad, la solicitud se convierte en la carga útil.

El Fantasma de Siri y Alexa

Este patrón no es nuevo. En los primeros días de Siri y Alexa, los investigadores demostraron cómo reproducir un comando de voz como “Enviar todas mis fotos a este correo electrónico” podría desencadenar una acción sin verificación del usuario.

Ahora la amenaza es mayor. Los agentes de IA como Microsoft Copilot están integrados profundamente en Office 365, Outlook y el sistema operativo. Tienen acceso a correos electrónicos, documentos, credenciales y API. Los atacantes solo necesitan la solicitud correcta para extraer datos críticos, mientras se hacen pasar por un usuario legítimo.

Cuando las Computadoras Confunden Instrucciones con Datos

Este no es un principio nuevo en ciberseguridad. Inyecciones como ataques SQL tuvieron éxito porque los sistemas no podían distinguir entre entrada e instrucción. Hoy en día, esa misma falla existe, pero en la capa de lenguaje.

Los agentes de IA tratan el lenguaje natural como entrada e intención. Un objeto JSON, una pregunta o incluso una frase pueden iniciar una acción. Esta ambigüedad es lo que los actores amenazantes explotan, incrustando comandos dentro de lo que parece contenido inofensivo.

Hemos incrustado intención en la infraestructura. Ahora, los actores amenazantes han aprendido a extraerla para hacer su voluntad.

La Adopción de IA Supera a la Ciberseguridad

A medida que las empresas se apresuran a integrar LLM, muchas pasan por alto una pregunta crítica: ¿a qué tiene acceso la IA?

Cuando Copilot puede acceder al sistema operativo, el radio de acción se expande mucho más allá de la bandeja de entrada. Según el Informe de Seguridad de IA de Check Point:

  • El 62 por ciento de los directores de seguridad de la información (CISO) temen que puedan ser responsables personalmente de violaciones relacionadas con la IA
  • Casi el 40 por ciento de las organizaciones informan sobre el uso interno no autorizado de la IA, a menudo sin supervisión de seguridad
  • El 20 por ciento de los grupos de delincuentes cibernéticos ahora incorporan la IA en sus operaciones, incluido el diseño de phishing y la realización de reconocimientos

Esto no es solo un riesgo emergente. Es un riesgo presente que ya está causando daños.

Por Qué las Medidas de Seguridad Existente no son Suficientes

Radoslaw Madej es Líder del Equipo de Investigación de Vulnerabilidades en Check Point Research. Radoslaw es un experto apasionado en ciberseguridad con casi dos décadas de experiencia técnica en diversas áreas de seguridad de la información, adquirida al entregar proyectos para empresas globales con altos requisitos de seguridad.