Connect with us

El problema de la confiabilidad de la IA que nadie quiere discutir

Líderes de opinión

El problema de la confiabilidad de la IA que nadie quiere discutir

mm

La narrativa dominante sobre la confiabilidad de la IA es simple: los modelos alucinan. Por lo tanto, para que las empresas obtengan la mayor utilidad de ellos, los modelos deben mejorar. Más parámetros. Mejores datos de entrenamiento. Más aprendizaje por refuerzo. Más alineación.

Y sin embargo, incluso cuando los modelos de vanguardia crecen más capaces, el debate sobre la confiabilidad se niega a desaparecer. Los líderes empresariales todavía dudan en permitir que los agentes tomen medidas significativas dentro de los sistemas principales. Las juntas directivas siguen preguntando: “¿Podemos confiar en él?”

Pero las alucinaciones no son principalmente un problema del modelo. Son un problema de contexto. Estamos pidiendo a los sistemas de IA que operen en la infraestructura empresarial sin darles la visibilidad estructural necesaria para razonar de manera segura. Luego, culpamos al modelo cuando adivina.

La verdadera brecha de confiabilidad no está en los pesos tanto como en la capa de información.

Un cirujano sin imágenes

Imagina a un cirujano operando sin imágenes. No hay MRI. No hay tomografía computarizada. No hay visualización en tiempo real de los tejidos circundantes. Solo una comprensión general de la anatomía y un escalpelo. Incluso el cirujano más habilidoso se vería obligado a inferir. A aproximar. A confiar en el razonamiento probabilístico.

Eso es lo que los agentes de IA empresariales están haciendo ahora.

Cuando se le pide a un sistema de IA que modifique un flujo de trabajo, actualice una regla de ERP o active la automatización en varias herramientas, rara vez tiene un gráfico de dependencias completo del entorno. No sabe qué campo “inutilizado” alimenta un panel de instrumentos descendente. No ve qué automatización hace referencia a esa regla de validación. No puede simular de manera confiable el impacto de segundo orden.

Así que hace lo que los grandes modelos de lenguaje están entrenados para hacer: predice. La predicción no es comprensión. Y la predicción sin contexto estructural se parece a alucinación.

Seguimos enmarcando el debate equivocado

La comunidad de IA ha estado atrapada en una conversación centrada en el modelo sobre la confiabilidad. Artículos sobre leyes de escalado. Investigación sobre cadenas de pensamiento de prompting. Técnicas de aumento de recuperación. Benchmarks de evaluación.

Todo necesario. Todo valioso. Pero observe qué está faltando: discusión de la topología del sistema empresarial.

La confiabilidad en un contexto empresarial no significa simplemente “el modelo genera texto correcto”. Significa “el sistema hace cambios que son seguros, trazables y predecibles”.

Eso es un requisito fundamentalmente diferente.

Cuando OpenAI y Anthropic publican evaluaciones del rendimiento del modelo, miden la precisión en tareas de razonamiento, benchmarks de codificación o recuerdo de conocimientos. Estas son señales útiles. Sin embargo, no miden la capacidad de un agente de IA para modificar de manera segura un sistema de ingresos en vivo con 15 años de deuda de automatización acumulada.

El problema no es si el modelo puede escribir código sintácticamente correcto; es si la IA entiende el entorno en el que se despliega ese código.

Los sistemas vivos acumulan entropía

Los sistemas empresariales no son bases de datos estáticas. Son sistemas vivos. Cada nueva integración deja un rastro. Cada campaña introduce un campo. Cada “arreglo rápido” introduce una capa adicional de automatización. Con el tiempo, estas capas interactúan de maneras que nadie entiende completamente.

Esto es una función del crecimiento. Los sistemas adaptativos complejos acumulan naturalmente entropía. La investigación de la Escuela de Administración Sloan de MIT ha destacado durante mucho tiempo cómo la asimetría de la información dentro de las organizaciones compone el riesgo operativo. Mientras tanto, Gartner estima que la mala calidad de los datos cuesta a las organizaciones un promedio de $12.9 millones por año.

Imagina insertar agentes autónomos en ese entorno sin abordar primero su opacidad estructural.

No deberíamos sorprendernos cuando los resultados parecen impredecibles. El agente no es malicioso ni estúpido. Está ciego. Está construyendo en la oscuridad.

La recuperación no es suficiente

Algunos argumentarán que la generación aumentada de recuperación (RAG) resuelve este problema. Dale al modelo acceso a la documentación. Aliméntalo con descripciones de esquemas. Conéctalo a API.

Eso ayuda.

Pero la documentación no es topología.

Un PDF que explica cómo debería operar un flujo de trabajo no es lo mismo que un gráfico en tiempo real de cómo interactúa realmente con 17 automatizaciones.

La realidad empresarial rara vez coincide con la documentación empresarial.

Un estudio de 2023 publicado en Communications of the ACM encontró que la documentación obsoleta es un contribuyente principal a los fallos de mantenimiento de software. Los sistemas evolucionan más rápido que sus narrativas.

Así que incluso cuando proporcionamos a los agentes de IA con documentación, a menudo les estamos dando un mapa parcial o idealizado.

Los mapas parciales aún producen errores confiados.

La capa agente es la capa de seguridad real

Tendemos a pensar en la seguridad como entrenamiento de alineación, barandillas, pruebas de penetración y filtros de política. Todo importante. Pero en contextos empresariales, la seguridad es contextual. Es saber:

  • ¿Qué depende de este campo?
  • ¿Qué automatización hace referencia a este objeto?
  • ¿Qué informes descendentes se romperán?
  • ¿Quién es el propietario de este proceso?
  • ¿Cuándo se modificó por última vez?
  • ¿Qué cambios históricos precedieron a la configuración actual?

Sin esta capa, un agente de IA está improvisando efectivamente dentro de una caja negra. Con esta capa, puede simular el impacto antes de actuar. La diferencia entre alucinación y confiabilidad a menudo es visibilidad.

Por qué el modelo está siendo culpado

¿Por qué, entonces, se centra el debate tanto en los modelos? Porque los modelos son legibles. Podemos medir la perplejidad. Podemos comparar puntajes de benchmark. Podemos publicar curvas de escalado. Podemos debatir la calidad de los datos de entrenamiento.

La topología de la información dentro de las empresas es mucho, mucho más desordenada. Requiere coordinación interfuncional. Exige disciplina de gobernanza. Obliga a las organizaciones a confrontar la complejidad acumulada de sus propios sistemas.

Es más fácil decir “el modelo no está listo” que admitir “nuestra infraestructura es opaca”.

Pero a medida que los agentes de IA se mueven de la generación de contenido a la ejecución operativa, este enfoque se vuelve peligroso.

Si tratamos la confiabilidad únicamente como un problema de selección de modelo, seguiremos desplegando agentes en entornos que no pueden percibir de manera significativa.

La autonomía requiere contexto

Los experimentos recientes de Anthropic con equipos de desarrollo de software de múltiples agentes muestran que los sistemas de IA pueden coordinarse en tareas complejas cuando se les proporciona contexto estructurado y memoria persistente. La frontera de capacidad está avanzando rápidamente. Pero esta marca de autonomía sin conciencia ambiental es frágil.

Un automóvil autónomo no depende únicamente de una poderosa red neuronal. Depende de lidar, cámaras, sistemas de mapas y sensores ambientales en tiempo real. El modelo es una capa dentro de una pila de percepción más amplia.

La IA empresarial necesita el equivalente de lidar. No solo acceso a API. No solo documentación. Sino una comprensión dinámica y estructurada de las dependencias del sistema.

Hasta que eso exista, los debates sobre alucinaciones seguirán mal diagnosticando la causa raíz.

El riesgo oculto: la sobreconfianza

Hay otro riesgo sutil en el enfoque actual.

A medida que los modelos mejoran, sus salidas se vuelven más fluidas, más persuasivas, más autoritarias.

La fluidez amplifica la sobreconfianza.

Cuando un agente modifica confiadamente un sistema sin contexto completo, el fracaso no es inmediatamente obvio. Puede surgir semanas después como una discrepancia en la informes, una brecha de cumplimiento o un error en la previsión de ingresos. Debido a que el modelo parece competente, las organizaciones pueden sobreestimar su seguridad operativa. El verdadero modo de fallo es el cálculo plausible.

Y el cálculo plausible prospera en la oscuridad.

Reenfocar la pregunta de la confiabilidad

En lugar de preguntar: “¿Es el modelo lo suficientemente bueno?” Deberíamos preguntar: “¿Tiene el agente suficiente contexto estructural para actuar de manera segura?” En lugar de medir la precisión de benchmark, deberíamos medir la visibilidad ambiental. En lugar de debatir sobre el recuento de parámetros, deberíamos auditar la opacidad del sistema.

La próxima frontera de la confiabilidad de la IA no son simplemente modelos más grandes. Son capas de contexto más ricas.

Esto incluye:

  • Gráficos de dependencias de sistemas empresariales
  • Rastreo de cambios en tiempo real
  • Asignación de propietarios
  • Conciencia de configuración histórica
  • Simulación de impacto antes de la ejecución

Nada de esto es glamoroso. Nada de esto es tendencia en las redes sociales. Pero aquí es donde se ganará la confiabilidad.

Construir con las luces encendidas

Los líderes empresariales tienen razón al exigir confiabilidad antes de otorgar a los agentes autoridad operativa. Pero el camino hacia adelante no es esperar a un modelo mítico libre de alucinaciones.

Es invertir en la infraestructura de visibilidad que hace posible la acción inteligente.

No permitiríamos que un administrador junior cambiara sistemas de producción sin entender las dependencias. No deberíamos permitir que los agentes de IA lo hagan tampoco.

El objetivo! Reducir los puntos ciegos.

Cuando los agentes operan con conciencia estructural, las tasas de alucinación disminuyen no porque el modelo cambie, sino porque la superficie de adivinanza se reduce.

La predicción se convierte en razonamiento. El razonamiento se convierte en simulación. La simulación se convierte en ejecución segura.

El cambio inevitable

En los próximos cinco años, la pila de IA se bifurcará. Una capa se centrará en la capacidad del modelo: profundidad de razonamiento, fluidez multimodal y eficiencia de costo. La otra se centrará en la topología informativa/contextual: gráficos de sistemas, inteligencia de metadatos y marcos de gobernanza.

Las organizaciones que traten la confiabilidad únicamente como un ejercicio de selección de modelo lucharán.

Las organizaciones que traten la confiabilidad como una propiedad arquitectónica avanzarán más rápido con menos riesgo.

El debate sobre alucinaciones parecerá anticuado en retrospectiva. La verdadera historia será sobre visibilidad.

La IA no es inherentemente temeraria.

Está operando en una habitación oscura.

Hasta que abordemos eso, no estamos construyendo sistemas inteligentes. Estamos construyendo predictores poderosos dentro de entornos opacos.

Y eso significa que, a pesar de todo el progreso, la IA todavía está construyendo en la oscuridad.

Ido Gaver es el CEO y co-fundador de Sweep, donde lidera la investigación y la estrategia de producto en la intersección de la IA, la arquitectura de metadatos y la gobernanza empresarial. Su trabajo se centra en permitir que los sistemas de IA agentic operen de manera segura y contextual dentro de los ecosistemas de software empresarial a gran escala.