Contáctenos

Las vulnerabilidades de seguridad que incorporamos: agentes de IA y el problema de la obediencia

Líderes del pensamiento

Las vulnerabilidades de seguridad que incorporamos: agentes de IA y el problema de la obediencia

mm

Los agentes de IA basados ​​en LLM están introduciendo una nueva clase de vulnerabilidades, donde los atacantes inyectan instrucciones maliciosas en los datos, convirtiendo sistemas útiles en cómplices involuntarios.

Microsoft Copilot no fue hackeado en el sentido tradicional. No hubo malware, ni enlaces de phishing, ni código malicioso. Nadie hizo clic en ningún elemento ni implementó ningún exploit.

El actor de amenazas simplemente pidió. Microsoft 365 Copilot, haciendo exactamente lo que fue diseñado para hacer, cumplió. En el reciente... Ecofuga En un ataque de clic cero, el agente de IA fue manipulado por una indicación disfrazada de datos. Obedeció, no porque estuviera roto, sino porque funcionaba como estaba diseñado.

Esta vulnerabilidad no explotó errores de software, sino lenguaje. Esto marca un punto de inflexión en la ciberseguridad, donde la superficie de ataque ya no es el código, sino la conversación.

El nuevo problema de la obediencia de la IA

Agentes de inteligencia artificial Están diseñados para ayudar. Su propósito es comprender la intención del usuario y actuar en consecuencia de manera eficiente. Esta utilidad conlleva riesgos. Al integrarse en sistemas de archivos, plataformas de productividad o sistemas operativos, estos agentes siguen comandos de lenguaje natural con mínima resistencia.

Los actores de amenazas están explotando precisamente esa característica. Con inyecciones rápidas que parecen inofensivas, pueden desencadenar acciones sensibles. Estas indicaciones pueden incluir:

  • Fragmentos de código multilingües
  • Formatos de archivos oscuros e instrucciones integradas
  • Entradas en idiomas distintos del inglés
  • Comandos de varios pasos ocultos en lenguaje informal

Debido a que los modelos de lenguaje grandes (LLM) están entrenados para comprender la complejidad y la ambigüedad, el mensaje se convierte en la carga útil.

El fantasma de Siri y Alexa

Este patrón no es nuevo. En los inicios de Siri y Alexa, los investigadores... demostrado Cómo reproducir un comando de voz como “Enviar todas mis fotos a este correo electrónico” podría desencadenar una acción sin verificación del usuario.

Ahora la amenaza es mayor. Agentes de IA como Microsoft Copilot están profundamente integrados en Office 365, Outlook y el sistema operativo. Acceden a correos electrónicos, documentos, credenciales y API. Los atacantes solo necesitan la indicación adecuada para extraer datos críticos, haciéndose pasar por un usuario legítimo.

Cuando las computadoras confunden instrucciones con datos

Este no es un principio nuevo en ciberseguridad. Inyecciones como Ataques SQL Tuvo éxito porque los sistemas no podían distinguir entre entrada e instrucción. Hoy en día, esa misma falla existe, pero en la capa del lenguaje.

Los agentes de IA tratan el lenguaje natural como entrada e intención. Un objeto JSON, una pregunta o incluso una frase pueden iniciar una acción. Esta ambigüedad es lo que explotan los cibercriminales, integrando comandos en contenido aparentemente inofensivo.

Hemos incorporado la intención a la infraestructura. Ahora, los actores de amenazas han aprendido a extraerla para cumplir sus órdenes.

La adopción de la IA está superando a la ciberseguridad

A medida que las empresas se apresuran a integrar LLM, muchas pasan por alto una pregunta crítica: ¿a qué tiene acceso la IA?

Cuando Copilot puede tocar el sistema operativo, el radio de acción se expande mucho más allá de la bandeja de entrada. Según Check Point Informe de seguridad de la IA:

  • El 62 por ciento de los directores de seguridad de la información (CISO) a nivel mundial temen que se les pueda responsabilizar personalmente por infracciones relacionadas con la IA.
  • Casi el 40 por ciento de las organizaciones informan sobre el uso interno no autorizado de IA, a menudo sin supervisión de seguridad.
  • El 20 por ciento de los grupos delictivos cibernéticos ahora incorporan IA en sus operaciones, incluso para crear phishing y realizar reconocimientos.

No se trata solo de un riesgo emergente. Es un riesgo presente que ya está causando daños.

Por qué las salvaguardias existentes son insuficientes

Algunos proveedores utilizan sistemas de vigilancia: modelos secundarios entrenados para detectar avisos peligrosos o comportamientos sospechosos. Estos filtros pueden detectar amenazas básicas, pero son vulnerables a técnicas de evasión.

Los actores de amenazas pueden:

  • Sobrecargar filtros con ruido
  • Dividir la intención en varios pasos
  • Utilice frases no obvias para evitar la detección

En el caso de Echoleak, existían salvaguardas, pero fueron ignoradas. Esto refleja no solo un fallo de política, sino también de arquitectura. Cuando un agente tiene permisos de alto nivel, pero contexto de bajo nivel, incluso las buenas salvaguardas resultan insuficientes.

Detección, no perfección

Prevenir todos los ataques puede ser poco realista. El objetivo debe ser la detección y contención rápidas.

Las organizaciones pueden comenzar por:

  • Monitoreo de la actividad del agente de IA en tiempo real y mantenimiento de registros de auditoría rápidos
  • Aplicar un acceso estricto con privilegios mínimos a las herramientas de IA, reflejando los controles de nivel de administrador
  • Añadir fricción a operaciones sensibles, como requerir confirmaciones
  • Marcar patrones de indicaciones inusuales o adversarios para su revisión

Los ataques basados ​​en el lenguaje no aparecerán en el lenguaje tradicional. detección y respuesta de endpoints Herramientas de detección electrónica (EDR). Requieren un nuevo modelo de detección.

Qué deben hacer ahora las organizaciones para protegerse

Antes de implementar agentes de IA, las organizaciones deben comprender cómo funcionan estos sistemas y qué riesgos introducen.

Las recomendaciones clave incluyen:

  1. Auditar todos los accesos: saber qué agentes pueden tocar o activar
  2. Limitar el alcance: conceder los permisos mínimos necesarios
  3. Realizar un seguimiento de todas las interacciones: registrar indicaciones, respuestas y acciones resultantes
  4. Prueba de estrés: Simular entradas adversarias internamente y con frecuencia
  5. Plan de evasión: Suponga que se pasarán por alto los filtros
  6. Alinearse con la seguridad: garantizar que los sistemas LLM respalden, y no comprometan, los objetivos de seguridad

La nueva superficie de ataque

Echoleak es un anticipo de lo que está por venir. A medida que los LLM evolucionan, su utilidad se convierte en una desventaja. Integrados profundamente en los sistemas empresariales, ofrecen a los atacantes una nueva vía de entrada: mediante indicaciones sencillas y bien diseñadas.

Ya no se trata solo de proteger el código. Se trata de proteger el lenguaje, la intención y el contexto. Es necesario cambiar las reglas del juego ahora, antes de que sea demasiado tarde.

Y, sin embargo, hay buenas noticias. Se están logrando avances en el uso de agentes de IA para... defender Contra ciberamenazas nuevas y emergentes. Si se aprovechan adecuadamente, estos agentes autónomos de IA pueden responder a las amenazas con mayor rapidez que cualquier humano, colaborar en distintos entornos y defenderse proactivamente contra riesgos emergentes, aprendiendo de un solo intento de intrusión.

La IA con agentes puede aprender de cada ataque, adaptarse en tiempo real y prevenir amenazas antes de que se propaguen. Tiene el potencial de establecer una nueva era de ciberresiliencia, pero solo si aprovechamos este momento y, juntos, moldeamos el futuro de la ciberseguridad. De lo contrario, esta nueva era podría suponer una pesadilla para la ciberseguridad y la privacidad de datos de las organizaciones que ya han implementado la IA (a veces incluso sin saberlo, con herramientas de TI en la sombra). Ahora es el momento de actuar para garantizar que los agentes de IA se utilicen para nuestro beneficio y no para nuestra desaparición.

Radoslaw Madej es líder del equipo de investigación de vulnerabilidades en Check Point ResearchRadoslaw es un apasionado experto en seguridad cibernética con casi dos décadas de experiencia técnica en diversas áreas de seguridad de la información adquirida mediante la entrega de proyectos para empresas globales con altos requisitos de seguridad.