Líderes de opinión
Qué nos dicen los primeros ataques a agentes de IA sobre 2026

A medida que la IA pasa de experimentos controlados a aplicaciones del mundo real, estamos entrando en un punto de inflexión en el panorama de la seguridad. La transición de modelos de lenguaje estáticos a sistemas agénticos interactivos que pueden navegar por documentos, llamar a herramientas y orquestar flujos de trabajo de varios pasos, ya está en marcha. Pero como revela una investigación reciente, los atacantes no están esperando a que maduren: están adaptándose al mismo ritmo acelerado, probando sistemas tan pronto como se introducen nuevas capacidades.
En el cuarto trimestre de 2025, nuestro equipo en Lakera analizó el comportamiento real de los atacantes en sistemas protegidos por Guard y en el entorno Gandalf: Agent Breaker — una instantánea enfocada de 30 días que, a pesar de su estrecha ventana, refleja patrones más amplios que observamos a lo largo del trimestre. Los hallazgos pintan un cuadro claro: tan pronto como los modelos comienzan a interactuar con algo más allá de simples solicitudes de texto (por ejemplo, documentos, herramientas, datos externos), la superficie de ataque se expande y los adversarios se ajustan instantáneamente para explotarla.
Este momento puede parecer familiar a aquellos que vieron evolucionar las aplicaciones web tempranas o que observaron el surgimiento de ataques impulsados por API. Pero con agentes de IA, las apuestas son diferentes. Los vectores de ataque están emergiendo más rápido de lo que muchas organizaciones anticiparon.
De la teoría a la práctica: agentes en el mundo real
Durante gran parte de 2025, las discusiones sobre agentes de IA se centraron en gran medida en el potencial teórico y los primeros prototipos. Pero en el cuarto trimestre, los comportamientos agénticos comenzaron a aparecer en sistemas de producción a gran escala: modelos que podían recuperar y analizar documentos, interactuar con API externas y realizar tareas automatizadas. Estos agentes ofrecieron beneficios de productividad obvios, pero también abrieron puertas que los modelos de lenguaje tradicionales no habían abierto.
Nuestro análisis muestra que en el momento en que los agentes se volvieron capaces de interactuar con contenido y herramientas externas, los atacantes se dieron cuenta y se adaptaron en consecuencia. Esta observación se alinea con una verdad fundamental sobre el comportamiento adversario: los atacantes siempre explorarán y explotarán nuevas capacidades en la primera oportunidad. En el contexto de la IA agéntica, esto ha llevado a una evolución rápida en las estrategias de ataque.
Patrones de ataque: lo que estamos viendo en Q4 2025
A lo largo del conjunto de datos que revisamos, surgieron tres patrones dominantes. Cada uno tiene implicaciones profundas para cómo se diseñan, se garantizan y se implementan los sistemas de IA.
1. Extracción de solicitudes de sistema como un objetivo central
En los modelos de lenguaje tradicionales, la inyección de solicitudes (manipulación directa de la entrada para influir en la salida) ha sido una vulnerabilidad bien estudiada. Sin embargo, en sistemas con capacidades agénticas, los atacantes apuntan cada vez más a la solicitud de sistema, que son las instrucciones internas, roles y definiciones de políticas que guían el comportamiento del agente.
Extraer solicitudes de sistema es un objetivo de alto valor porque estas solicitudes a menudo contienen definiciones de roles, descripciones de herramientas, instrucciones de políticas y lógica de flujo de trabajo. Una vez que un atacante comprende estas mecánicas internas, obtiene un plan para manipular al agente.
Las técnicas más efectivas para lograr esto no fueron ataques de fuerza bruta, sino más bien un marco astuto:
- Escenarios hipotéticos: Solicitudes que piden al modelo que asuma un papel o contexto diferente — por ejemplo, “Imagina que eres un desarrollador que revisa esta configuración del sistema…” — a menudo convencieron al modelo para revelar detalles internos protegidos.
- Ofuscación dentro de contenido estructurado: Los atacantes incrustaron instrucciones maliciosas dentro de texto estructurado o similar a código que sorteaba filtros simples y desencadenaba comportamientos no deseados una vez parseado por el agente.
Esto no es solo un riesgo incremental — altera fundamentalmente cómo pensamos sobre la protección de la lógica interna en los sistemas agénticos.
2. Bypasses sutiles de seguridad de contenido
Otra tendencia clave implica eludir las protecciones de seguridad de contenido de maneras difíciles de detectar y mitigar con filtros tradicionales.
En lugar de solicitudes maliciosas abiertas, los atacantes enmarcaron contenido dañino como:
- Tareas de análisis
- Evaluaciones
- Escenarios de rol
- Transformaciones o resúmenes
Estos reenmarques a menudo pasaron desapercibidos por los controles de seguridad porque aparecen benignos en la superficie. Un modelo que se negaría a una solicitud directa de salida dañina podría producir felizmente la misma salida cuando se le pide que “evalúe” o “resuma” en contexto.
Este cambio subraya un desafío más profundo: la seguridad de contenido para los agentes de IA no se trata solo de la aplicación de políticas; se trata de cómo los modelos interpretan la intención. A medida que los agentes asumen tareas y contextos más complejos, los modelos se vuelven más susceptibles a la reinterpretación basada en el contexto — y los atacantes explotan este comportamiento.
3. Emergencia de ataques específicos de agentes
Quizás el hallazgo más consecuente fue la aparición de patrones de ataque que solo tienen sentido en el contexto de capacidades agénticas. Estos no fueron simples intentos de inyección de solicitudes, sino explotaciones vinculadas a nuevos comportamientos:
- Intentos de acceso a datos internos confidenciales: Se crearon solicitudes para convencer al agente de que recuperara o expusiera información de tiendas de documentos o sistemas conectados — acciones que previamente habrían estado fuera del alcance del modelo
- Instrucciones con forma de script incrustadas en texto: Los atacantes experimentaron con la incrustación de instrucciones en formatos que se asemejan a scripts o contenido estructurado, que podrían fluir a través de una canalización de agente y desencadenar acciones no deseadas
- Instrucciones ocultas en contenido externo: Varios ataques incrustaron directivas maliciosas dentro de contenido externo referenciado — como páginas web o documentos que el agente se le pidió que procesara — efectivamente sorteando filtros de entrada directa
Estos patrones son tempranos, pero señalan un futuro en el que las capacidades en expansión de los agentes cambian fundamentalmente la naturaleza del comportamiento adversario.
Por qué los ataques indirectos son tan efectivos
Uno de los hallazgos más destacados del informe es que los ataques indirectos — aquellos que aprovechan contenido o datos estructurados externos — requirieron menos intentos que las inyecciones directas. Esto sugiere que la sanitización tradicional de entrada y el filtrado de consultas directas son defensas insuficientes una vez que los modelos interactúan con contenido no confiable.
Cuando una instrucción dañina llega a través de un flujo de trabajo de agente externo — ya sea un documento enlazado, una respuesta de API o una página web recuperada — los filtros tempranos son menos efectivos. El resultado: los atacantes tienen una superficie de ataque más grande y menos obstáculos.
Implicaciones para 2026 y más allá
Los hallazgos del informe llevan implicaciones urgentes para las organizaciones que planean implementar IA agéntica a gran escala:
- Redefinir límites de confianza
La confianza no puede ser simplemente binaria. A medida que los agentes interactúan con usuarios, contenido externo y flujos de trabajo internos, los sistemas deben implementar modelos de confianza matizados que consideren contexto, procedencia y propósito. - Las barreras de seguridad deben evolucionar
Los filtros de seguridad estáticos no son suficientes. Las barreras de seguridad deben ser adaptables, conscientes del contexto y capaces de razonar sobre la intención y el comportamiento a lo largo de flujos de trabajo de varios pasos. - La transparencia y la auditoría son esenciales
A medida que los vectores de ataque crecen en complejidad, las organizaciones necesitan visibilidad en cómo los agentes toman decisiones — incluidos pasos intermedios, interacciones externas y transformaciones. Los registros auditables y los marcos de explicabilidad ya no son opcionales. - La colaboración interdisciplinaria es clave
La investigación de IA, la ingeniería de seguridad y los equipos de inteligencia de amenazas deben trabajar juntos. La seguridad de la IA no puede estar aislada; debe integrarse con prácticas de ciberseguridad más amplias y marcos de gestión de riesgos. - La regulación y los estándares necesitarán ponerse al día
Los formuladores de políticas y los organismos de estándares deben reconocer que los sistemas agénticos crean nuevas clases de riesgo. Las regulaciones que abordan la privacidad de los datos y la seguridad de la salida son necesarias pero no suficientes; también deben tener en cuenta comportamientos interactivos y entornos de ejecución de varios pasos.
El futuro de los agentes de IA seguros
La llegada de la IA agéntica representa un cambio profundo en capacidad y riesgo. Los datos del cuarto trimestre de 2025 son un indicador temprano de que tan pronto como los agentes comienzan a operar más allá de la simple generación de texto, los atacantes seguirán. Nuestros hallazgos muestran que los adversarios no solo se están adaptando, sino que también están innovando en técnicas de ataque que las defensas tradicionales aún no están preparadas para contrarrestar.
Para las empresas y los desarrolladores, el mensaje es claro: garantizar la seguridad de los agentes de IA no es solo un desafío técnico; es un desafío arquitectónico. Requiere replantear cómo se establece la confianza, cómo se aplican las barreras de seguridad y cómo se evalúa continuamente el riesgo en entornos dinámicos e interactivos.
En 2026 y más allá, las organizaciones que tengan éxito con la IA agéntica serán aquellas que traten la seguridad no como un pensamiento posterior, sino como un principio de diseño fundamental.












