Líderes de opinión
¿Quién vigila a los agentes? La nueva era de la supervisión de la IA

Cuando se habla de agentes de IA, la mayoría de la gente imagina sistemas superinteligentes que actúan por sí mismos, haciendo cosas impredecibles. Así que un día el agente-secretario podría ser increíblemente útil, y al día siguiente podría dar sus credenciales bancarias a una persona aleatoria.
La parte de “superinteligente” no es realmente importante en esta preocupación. El problema clave no es cuán “inteligente” es un agente de IA, sino más bien cuánta libertad y acceso a la infraestructura tiene.
En la práctica, el valor de un agente se define menos por su nivel de inteligencia y más por los límites de su autoridad. Incluso un agente relativamente simple, una vez que se le otorga acceso a conjuntos de datos, sistemas corporativos, operaciones financieras o API externas, adquiere la capacidad de influir en procesos a una escala que requiere una atención y supervisión especiales.
Es por eso que los sistemas de monitoreo y contención están volviéndose cada vez más vitales, no solo a nivel de modelo, sino también a nivel de su comportamiento dentro de la infraestructura.
No es casualidad que las iniciativas destinadas a observar y controlar la actividad de los agentes hayan ganado impulso en los últimos años. Estas soluciones prácticas ya están siendo implementadas por grandes empresas de tecnología.
Cómo funciona un agente
Para entender cómo funciona la supervisión, primero debemos mirar de qué se compone un agente. En términos simplificados, se puede ver como una combinación de un núcleo cognitivo, el “cerebro” y las herramientas.
Las herramientas son servicios y integraciones externos a los que el agente puede acceder. Por ejemplo, para un agente de viajes, esto podría incluir Booking.com o Airbnb para encontrar hoteles, agregadores de vuelos para comprar boletos y sistemas de pago o tarjetas bancarias para realizar pagos. Por sí solas, estas herramientas no son inteligentes; simplemente permiten que el agente actúe en el mundo real.
El núcleo cognitivo es un modelo de lenguaje (LLM). Le permite al agente trabajar de manera significativa con solicitudes formuladas por humanos. Por ejemplo, la solicitud “Quiero volar a Europa durante tres días en el próximo mes, donde el clima será agradable” es demasiado vaga. El agente le pide al LLM que “desglose la solicitud en categorías”. A cambio, recibe parámetros estructurados: dónde, cuándo, durante cuánto tiempo y bajo qué condiciones.
Anteriormente, ChatGPT solo generaba respuestas de texto. Ahora, incrustado en un agente, se convierte en una combinación de “cerebro + herramientas”, capaz de no solo explicar sino actuar. El LLM estructura la tarea, y las herramientas permiten que se ejecuten acciones específicas.
Cómo funciona la supervisión
En este punto, entra en juego un sistema de control. Lo llamo una solución de seguridad “perro guardián” (hace algún tiempo, incluso consideré la idea de crear una startup enfocada en esto), una especie de perro guardián integrado en el agente. Su trabajo es monitorear las acciones del agente y verificarlas contra la solicitud original. El objetivo es asegurarse de que el agente opere dentro de los límites previstos.
Volvamos al ejemplo de viajes: supongamos que nuestro usuario quiere reservar un viaje de tres días a Europa. El agente interactúa con servicios meteorológicos, boletos de avión y la cuenta bancaria para el pago. Todo parece normal. Pero de repente, el “perro guardián” nota que el agente solicita acceso a una base de datos corporativa o a una cuenta bancaria no relacionada con el pago del viaje. Esto desencadena una alerta de seguridad y señala un comportamiento sospechoso.
Es importante entender la escala: un agente puede servir a miles de usuarios por día, con cada solicitud desencadenando cientos de operaciones, lo que resulta en millones de acciones. El “perro guardián” analiza todas las acciones y genera estadísticas. Los informes pueden indicar: “El 13% de las acciones fueron redundantes, el 7% se relacionó con la seguridad financiera”. Los detalles adicionales explican qué acciones específicas parecieron sospechosas.
Esta herramienta permite a los desarrolladores ver la imagen completa y responder rápidamente a las anomalías, formando una solución práctica de control de IA que combina monitoreo en tiempo real, detección de anomalías y rendición de cuentas.
¿Quién se beneficia del “perro guardián“: desarrolladores o usuarios?
Primariamente, el “perro guardián” está destinado a los desarrolladores para asegurarse de que el sistema funcione correctamente. Sin embargo, también se puede imaginar una versión externa: un agente observador separado que monitorea al agente principal. Esto agrega otra capa de seguridad de IA, extendiendo la supervisión más allá del sistema interno.
Hay una limitación importante: el proceso interno del agente permanece “cerrado”. Solo podemos observar su comportamiento, no sus procesos cognitivos. Una analogía con los humanos: puedo ver a alguien recoger un teléfono, marcar un número y hablar. Pero no sé qué número se marcó, cuál era la intención ni qué se dijo. De manera similar, un observador externo ve las acciones del agente pero no su núcleo cognitivo.
Otra consideración intrigante: los agentes pueden intentar eludir o deshabilitar a estos observadores en el futuro, al igual que los humanos a menudo resisten la vigilancia constante. Aunque esto puede sonar como ciencia ficción hoy en día, es posible. Integrar soluciones de seguridad de IA internas, detección de anomalías y supervisión en capas puede ayudar a mitigar estos riesgos y mantener el control sobre sistemas cada vez más autónomos.
Reglas primitivas o análisis contextual?
Hoy en día, dichos sistemas “perro guardián” operan en un principio simple: “permitido” o “no permitido”. Por ejemplo, si la regla dice “acceder a Amazon está prohibido” y el agente va allí, se registra una violación. Pero este enfoque no entiende el contexto.
Un sistema más avanzado debería analizar la violación y su razón. ¿Por qué el agente fue a Amazon? ¿Estaba justificado en términos de la tarea? Aquí estamos hablando de supervisión contextual, similar al trabajo de un psicólogo.
Por ahora, tales soluciones existen solo como conceptos. Los sistemas existentes se limitan a un control estricto en blanco y negro. Pero en el futuro, a medida que los agentes se vuelvan más complejos, surgirá un “perro guardián” capaz de considerar el contexto.
Hoy estamos viendo un crecimiento en las iniciativas para la supervisión de agentes. Están siendo activamente desarrolladas a nivel de las mayores empresas de tecnología. Por ejemplo, ActiveFence trabaja con grandes jugadores como NVIDIA y Amazon.
Además, es seguro asumir que Google, OpenAI, Anthropic y Amazon ya utilizan sus propios sistemas “perro guardián” internos, análisis y telemetría.
Noté esta demanda entre los clientes empresariales de Keymakr también – la supervisión y el monitoreo se están convirtiendo en una parte central de la infraestructura de IA. Sin ellos, la implementación de agentes a gran escala sería imposible.












