Líderes de opinión

Cuando la capacidad de la IA aumenta más rápido que los modelos de seguridad diseñados para contenerla

Published March 5, 2026

Updated April 25, 2026

Jon Baker, VP Threat-Informed Defense, AttackIQ

Las herramientas de IA suelen llegar con un discurso familiar. Prometen simplificar flujos de trabajo, aumentar la productividad y realizar tareas que a nadie le gustan. Y la mayoría de las veces, entregan exactamente eso. Simplifican los inicios de sesión, resumen documentos, automatizan flujos de trabajo y hacen que las actividades rutinarias se sientan casi sin esfuerzo.

Pero debajo de toda esa comodidad se esconde una historia diferente. Estas herramientas ya no están confinadas a una caja de texto. Están comenzando a actuar en el propio sistema operativo. Pueden navegar por archivos, redactar correos electrónicos, interactuar con aplicaciones y realizar acciones que antes requerían un ser humano atento que entendiera las consecuencias. Ese cambio coloca a la IA en una posición que los supuestos de seguridad existentes nunca estuvieron diseñados para manejar.

El momento en que la IA obtiene acceso al sistema

Una vez que un sistema de IA puede leer archivos reales y ejecutar comandos reales, se convierte en parte de la base de confianza del sistema. Ese es el momento en que las expectativas largamente sostenidas sobre la seguridad de la IA comienzan a romperse.

Durante años, la inyección de comandos se consideró un comportamiento extraño del modelo. Causaba que los chatbots produjeran respuestas engañosas o inapropiadas, pero el daño terminaba con la conversación. Ahora, el mismo error puede desencadenar acciones a nivel de host, no solo texto. Una instrucción maliciosa oculta dentro de un PDF, un sitio web o un correo electrónico ya no produce una respuesta extraña. Produce una acción realizada en la máquina.

Esto no es algo que la industria pueda descartar como teórico. Investigadores de Carnegie Mellon y la Universidad de Washington han demostrado repetidamente que las instrucciones ocultas pueden dirigir a los grandes modelos de lenguaje a ejecutar acciones que los usuarios nunca pretendieron. Mientras tanto, investigadores que estudian modelos de visión han mostrado cómo las imágenes manipuladas pueden alterar la percepción del modelo de maneras que influyen en el comportamiento posterior.

Estos experimentos se trataron como curiosidades de laboratorio. Ya no se sienten académicos cuando la IA tiene acceso al sistema operativo.

Cuando la capacidad del agente supera el control del defensor

Incluso las empresas que construyen estos agentes reconocen la gravedad del desafío. Han fortalecido los filtros para manejar los comandos, pero declaran abiertamente que controlar las acciones reales de un sistema de IA sigue siendo un área de trabajo activa y no resuelta en toda la industria. Esa brecha entre lo que el agente puede hacer y lo que los defensores pueden controlar introduce una nueva categoría de riesgo que los libros de juego de seguridad existentes no pueden absorber.

Los agentes de IA han cruzado un límite para el que la industria no está completamente preparada. La única manera de entender esto es mirar cómo la inyección de comandos ahora se cruza con las mismas cadenas de ataques que los defensores han seguido durante más de una década.

Cómo la inyección de comandos ahora se relaciona con las cadenas de ataques que todos conocen

Los atacantes siempre han seguido un patrón predecible. El marco de ATT&CK de MITRE lo describe claramente. El acceso inicial es seguido por la ejecución, la persistencia, el descubrimiento, el movimiento lateral, la recolección y la extracción. Las técnicas varían, pero la estructura es estable.

Lo que está cambiando es el mecanismo de entrega. En lugar de convencer a un usuario para que abra un archivo malicioso o haga clic en un enlace peligroso, los atacantes pueden colocar instrucciones donde el agente de IA las leerá. El agente se convierte en el entorno de ejecución. Realiza los pasos exactamente como se describen. El modelo no cuestiona si la instrucción es perjudicial. No aplica juicio ni intuición. Simplemente actúa.

Una vez que un atacante puede influir en el razonamiento del agente, la cadena de ataques se junta rápidamente. Un archivo manipulado desencadena la ejecución, las instrucciones de seguimiento crean persistencia, las búsquedas del sistema proporcionan descubrimiento y las subidas de archivos permiten la recolección y la extracción. No se necesita malware. El agente simplemente lleva a cabo los pasos como se escribieron.

Esta es la parte de la historia que los equipos de seguridad están luchando por adaptar. Han pasado años construyendo reglas de detección, controles y procesos de respuesta alrededor de la ejecución basada en código. Los agentes de IA introducen diferentes tipos de intérpretes. Ejecutan a través del lenguaje natural, no a través de binarios compilados. Las herramientas existentes no están diseñadas para rastrear o incluso analizar ese proceso de razonamiento.

Los equipos de seguridad no están preparados y ni siquiera se dan cuenta

Los programas de seguridad aún asumen que un ser humano se sienta entre el contenido y la acción. Los humanos pueden ser engañados, pero se detienen cuando algo se siente mal. Notan frases extrañas, cuestionan el comportamiento inesperado y aplican juicio a la última milla de la decisión.

Los agentes de IA no hacen nada de esto; son consistentes, literales y más rápidos que cualquier adversario. Una sola línea de texto oculto es suficiente para instruir al agente para que lea archivos sensibles, se mueva a través de aplicaciones o contacte a un servidor remoto. Esto coloca a los defensores en una posición en la que nunca han estado antes.

Los equipos de seguridad tienen una visibilidad limitada sobre cómo un agente llega a una decisión, y no pueden determinar fácilmente si una acción se originó con el usuario o con la IA. La detección tradicional de malware no ofrece ayuda porque nada malicioso se está ejecutando en el sentido usual, y no hay garantía de que el agente cuestione o rechace instrucciones perjudiciales ocultas en contenido normal.

Las herramientas diseñadas para el comportamiento humano simplemente no se transfieren a un mundo donde el lenguaje natural se convierte en el guión que impulsa el comportamiento del sistema.

¿Qué controles compensatorios realmente funcionan?

El endurecimiento del modelo no es suficiente. Los equipos de seguridad necesitan controles alrededor del agente que limiten lo que la IA puede hacer, incluso cuando su razonamiento es influenciado.

Varias estrategias están mostrando promesa:

El acceso de mínimo privilegio es esencial. Los agentes solo deben tener acceso a los archivos y acciones necesarios para sus tareas. Reducir los permisos innecesarios limita el impacto de las instrucciones manipuladas.
Los pasos de aprobación humana pueden detener acciones perjudiciales antes de que ocurran. Cuando un agente intenta una operación sensible, como ejecutar un comando o acceder a datos protegidos, el usuario debe aprobar o denegar la solicitud.
El filtrado de contenido crea un buffer entre materiales no confiables y el agente. La pantalla de documentos, URLs y texto externo reduce las posibilidades de que las instrucciones ocultas lleguen al modelo.
La registración completa es obligatoria. Cada acción iniciada por el agente debe ser registrada y revisada. Estas acciones deben ser tratadas de la misma manera que cualquier actividad de usuario con privilegios.
La asignación de comportamientos de agente a técnicas de ATT&CK ayuda a los defensores a identificar dónde el agente puede ser empujado a acciones perjudiciales y dónde deben colocarse las barandillas. Utiliza el mismo sistema que ya estructura la estrategia defensiva.

Estos controles compensatorios no eliminarán el riesgo. Pero lo contienen de maneras que las defensas a nivel de modelo no pueden.

Adónde va la industria a continuación

Los agentes de IA representan un gran cambio en la forma en que funciona la computación. Ofrecen una productividad increíble, pero también introducen una categoría de riesgo operativo que no se ajusta dentro de los marcos de seguridad existentes. La guía del Centro Nacional de Seguridad Cibernética del Reino Unido es un comienzo, pero la mayoría de las organizaciones aún carecen de una forma clara de gobernar a los agentes que pueden actuar en el sistema.

Este momento se siente similar a los primeros días de la adopción de la nube. La tecnología se movió más rápido que los controles. Las organizaciones que se adaptaron rápidamente fueron las que reconocieron el cambio temprano y construyeron procesos para igualarlo.

Lo mismo será cierto aquí. Los agentes de IA no son solo ayudantes. Son operadores con alcance a nivel de sistema. Segurizarlos requiere nuevos libros de juego, nuevas barandillas y nuevas formas de modelar la exposición.

La industria no necesita temer estas herramientas. Pero necesita entenderlas. Y necesita moverse rápidamente, porque los atacantes ya ven la oportunidad. La pregunta es si los defensores construirán las salvaguardas adecuadas mientras todavía tienen tiempo.

Related Topics:AI capability attackIQ cybersecurity security

Jon Baker, VP Threat-Informed Defense, AttackIQ

Jon Baker, VP Threat-Informed Defense at AttackIQ, aporta más de 20 años de experiencia liderando la innovación en ciberseguridad con un enfoque en hacer que la seguridad sea más eficiente y efectiva a gran escala. Es el ex director y co-fundador del Centro de Defensa Informada por Amenazas (CTID) de MITRE, donde unió a equipos de seguridad sofisticados para avanzar en el estado del arte y la práctica en defensa informada por amenazas a nivel global. Antes de lanzar el CTID, Jon lideró el Departamento de Inteligencia de Amenazas Cibernéticas y Emulación de Adversarios de MITRE, donde avanzó esas capacidades críticas en toda MITRE, y gestionó los equipos CALDERA y MITRE ATT&CK®. Jon lideró equipos que desarrollaron estándares abiertos, incluyendo STIX y TAXII para el intercambio de inteligencia de amenazas, y fue el co-creador de OVAL mientras gestionaba el programa de automatización de seguridad de MITRE.