Líderes de opinión

Por qué las salvaguardas de los chatbots son el límite de seguridad equivocado

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

La inteligencia artificial empresarial ha superado con creces la etapa de prueba de concepto. 23% de las organizaciones ya están escalando sistemas de inteligencia artificial agente en algún lugar de su empresa, y 62% están experimentando al menos con agentes de inteligencia artificial. Estos no son proyectos de investigación. Son despliegues de producción, integrados en flujos de trabajo que tocan repositorios de código, datos de clientes, API internas e infraestructura operativa.

La respuesta de la industria a este crecimiento se ha centrado en gran medida en lo que sucede antes de que un agente se ponga en vivo. Los proveedores y los investigadores han invertido energía en salvaguardas previas a la implementación: publicar políticas de escalado, endurecer modelos base, filtrar entradas, asegurar la cadena de suministro de inteligencia artificial y hacer cumplir la alineación en el momento del entrenamiento. Los principales proveedores de inteligencia artificial han realizado inversiones sustanciales en herramientas de seguridad orientadas al desarrollador, reforzando una suposición central: si el modelo y sus entradas están controladas, el riesgo posterior se puede contener.

Es un instinto razonable, pero cada vez más incompleto.

La invitación no es un perímetro de seguridad

Las salvaguardas que operan en la interfaz del modelo benefician principalmente a los equipos que controlan el código de la aplicación, la configuración del modelo y la infraestructura subyacente. Ofrecen mucha menos protección a los defensores que están encargados de proteger sistemas de inteligencia artificial que no construyeron y no pueden modificar. Ese es un punto ciego significativo, y los adversarios ya lo han encontrado.

El último informe de inteligencia de amenazas de OpenAI documenta exactamente esta dinámica. Los actores de amenazas están abusando activamente de ChatGPT y herramientas similares en entornos de producción, no inventando técnicas de ataque novedosas, sino integrando la inteligencia artificial en flujos de trabajo existentes para moverse más rápido. La reconnaissance se vuelve más eficiente. La ingeniería social se amplía. El desarrollo de malware se acelera. La superficie de ataque no ha cambiado fundamentalmente; la velocidad y el volumen de explotación han cambiado.

Más revelador es cómo respondieron los atacantes cuando esas herramientas se resistieron. OpenAI observó que los actores de amenazas mutaban rápidamente sus invitaciones, preservando la intención subyacente mientras cíclicamente variaban las variaciones de superficie para evadir los controles front-end. Este es un patrón que los profesionales de la seguridad han visto antes. Las defensas estáticas, ya sean antivirus basados en firma o filtrado de entradas, no se mantienen contra adversarios que iteran más rápido que las actualizaciones de reglas pueden seguir.

El desafío se complica a medida que los agentes ganan autonomía. Los agentes de inteligencia artificial modernos no operan en un solo intercambio. Ejecutan secuencias de acciones multi-paso, invocando herramientas y permisos legítimos de maneras que parecen completamente normales en aislamiento. Un agente que utiliza credenciales válidas para enumerar API internas no dispara una alerta. Un agente que accede a tiendas de datos sensibles durante lo que parece ser un flujo de trabajo de rutina no genera ninguna bandera inmediata. Cada acción individual pasa la inspección; el peligro vive en la combinación y la secuencia.

Cuando la amenaza se mueve hacia abajo

Los equipos de seguridad que defienden despliegues de inteligencia artificial hoy enfrentan una discrepancia estructural. Las herramientas disponibles para ellos están en gran medida construidas para razonar sobre lo que un modelo está permitido decir. El riesgo real que necesitan administrar es lo que un agente está haciendo en sistemas, redes e identidades una vez que se le han otorgado permisos y se ha puesto en libertad en un entorno de producción.

Las salvaguardas basadas en invitaciones comparten las debilidades fundamentales de los enfoques de seguridad basados en reglas anteriores. Son frágiles porque dependen de predecir patrones de ataque con anticipación. Son reactivas porque requieren que alguien haya observado y codificado la amenaza antes de que la defensa pueda funcionar. Y están superadas por adversarios que han adoptado la iteración asistida por inteligencia artificial como práctica estándar. Un defensor que confía en el filtrado de entradas para atrapar a un actor de amenazas que está utilizando un modelo de lenguaje para generar variaciones de invitación frescas está en una posición fundamentalmente perdedora.

La exposición real se produce después del despliegue. Las acciones impulsadas por el agente se propagan por los entornos de maneras que no se pueden anticipar completamente con pruebas previas al lanzamiento. Los agentes encuentran casos de borde, interactúan con fuentes de datos que no estaban diseñadas para manejar, reciben entradas de sistemas fuera de la arquitectura original y toman decisiones que se acumulan con el tiempo. Las pruebas previas al lanzamiento son una instantánea; la producción es un flujo continuo. Defender solo la instantánea significa aceptar que todo lo que sucede en el flujo es efectivamente sin supervisión.

Desplazar el límite de seguridad al comportamiento del agente

Construir la resiliencia de la inteligencia artificial requiere un marco diferente y el objetivo no debe ser proteger la interfaz del modelo. Debe ser detectar la intención del atacante a través de las consecuencias observables de las acciones del agente. Esa es una distinción significativa. La intención no siempre se manifiesta en lo que un agente dice o en las entradas que recibe.

Proteger los sistemas de inteligencia artificial debe extenderse más allá de las comprobaciones de alineación y evaluaciones de robustez para una evaluación continua de cómo los agentes se comportan una vez que interactúan con herramientas reales, API reales y datos reales. La evaluación estática en el momento del despliegue es necesaria pero insuficiente. El entorno de amenazas en el que opera un agente cambia constantemente. El comportamiento del agente necesita ser monitoreado con la misma continuidad.

Este es un problema que el endurecimiento de la invitación no puede resolver. Detectar la intención maliciosa a medida que emerge a través de secuencias de acciones requiere modelos capaces de comprender comportamientos complejos y secuenciales en entornos operativos. Los modelos de aprendizaje profundo de base para el análisis de comportamiento pueden hacer esto de maneras que los sistemas basados en reglas y la herramienta de monitoreo de seguridad tradicional no pueden. Aprenden qué es lo normal en todo el contexto de la actividad del agente y resaltan las desviaciones que indican que algo ha cambiado, incluso cuando ninguna acción individual dispara una alerta convencional.

La lógica subyacente se mantiene independientemente del contexto de despliegue: la seguridad anclada en la capa de invitación perderá consistentemente ante los atacantes que operan en la capa de acción. La defensa tiene que moverse a donde vive la amenaza real.

Qué deben hacer los equipos de seguridad ahora

Para los líderes de seguridad que intentan adelantarse a esto, algunos cambios prácticos pueden cerrar la brecha entre donde se encuentran las defensas actualmente y donde necesitan estar.

Evalúe la seguridad de la inteligencia artificial en toda la pila de aplicación. El modelo base es una capa. Igualmente importante es cómo los agentes se comportan una vez desplegados en producción, qué herramientas llaman, qué permisos utilizan y cómo esas elecciones evolucionan con el tiempo. Las evaluaciones de seguridad que se detienen en el límite del modelo dejan la superficie operativa en gran medida sin examinar.

Haga cumplir el privilegio mínimo a nivel de agente. Los agentes de inteligencia artificial deben tener acceso solo a las herramientas, API y datos necesarios para su función designada. Esta restricción es importante incluso cuando las salidas del agente parecen benignas. Limitar el alcance reduce el radio de acción de un agente comprometido y crea líneas base de comportamiento más claras que hacen que la detección de anomalías sea más efectiva.

Trate a los agentes como identidades que generan telemetría. Cada acción que toma un agente es un dato. Los equipos de seguridad deben construir lógica de detección alrededor de cadenas de acciones iniciadas por el agente, no solo las invitaciones del usuario que las preceden. Esta redefinición cambia la supervisión de lo que alguien le pidió al agente que hiciera a lo que el agente realmente hizo, que es donde la intención del atacante se vuelve visible.

Invierta en monitoreo de comportamiento continuo con modelos de detección diseñados específicamente para esta tarea. Identificar la intención maliciosa a medida que emerge a través de secuencias de acciones requiere capacidad especializada. Las herramientas de monitoreo convencionales fueron construidas para patrones de actividad generados por humanos. El comportamiento del agente, con su velocidad, volumen y estructura multi-paso, exige infraestructura de detección diseñada desde cero con ese contexto en mente.

Priorice la defensa colectiva. Las técnicas de ataque asistidas por inteligencia artificial están evolucionando más rápido de lo que cualquier organización puede rastrear. La investigación compartida, la colaboración abierta y la inteligencia de amenazas de la comunidad no son complementos opcionales de una estrategia de seguridad de inteligencia artificial; son entradas básicas. Los defensores que se mantienen actualizados son los que contribuyen y se benefician del conocimiento colectivo.

La seguridad del comportamiento realmente entrega

Para los equipos de seguridad que hacen este cambio, el pago operativo es concreto. Anclar la detección en el comportamiento del agente en lugar de en las salidas del modelo permite la identificación más temprana de la intención maliciosa, incluso cuando los ataques son sigilosos, adaptables o cifrados. Los atacantes que mutan con éxito sus invitaciones más allá de los filtros de entrada todavía tienen que actuar. Esas acciones dejan huellas. La detección de comportamiento encuentra esas huellas antes de que el daño se propague.

Quizás lo más significativo es que este enfoque da a las organizaciones un camino creíble para desplegar agentes de inteligencia artificial a gran escala sin aceptar un riesgo de seguridad proporcional. La pregunta que ha estado deteniendo a muchas empresas no es si los agentes de inteligencia artificial pueden entregar valor; es si se pueden desplegar con suficiente confianza de que la postura de seguridad no se degrada a medida que crece el despliegue. La seguridad del comportamiento, basada en cómo los agentes realmente operan en lugar de en las entradas que reciben, proporciona esa confianza de una manera que los controles basados en la invitación no pueden.

El límite de seguridad se dibujó en el lugar equivocado, y ese error tenía sentido cuando la inteligencia artificial era una herramienta que esperaba la entrada. Ya no espera, los sistemas agente actúan, encadenan, escalan y se acumulan en entornos que no se anticiparon en las pruebas previas al despliegue. Las organizaciones que reconocen esto más temprano serán las que realmente escalen la inteligencia artificial con confianza. Todos los demás pasarán los próximos años descubriendo, violación por violación, que controlar lo que un modelo dice nunca fue lo mismo que controlar lo que hace.

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

Mayank Kumar es el Ingeniero de IA Fundador en DeepTempo, donde lidera el diseño y el desarrollo del modelo de lenguaje de registro (LogLM) fundamental de la empresa. Con una sólida formación académica y de investigación en IA generativa y multimodal, aporta una especialización en la creación de modelos específicos de dominio que mejoran la detección y respuesta a amenazas en entornos de ciberseguridad.