Connect with us

Líderes de opinión

El Camino Crítico para Automatizar el Desarrollo de Modelos

mm mm
A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

El próximo hito importante para la investigación de inteligencia artificial es automatizar el desarrollo de modelos. Cada avance en razonamiento, lenguaje y percepción es, en cierto sentido, un paso hacia ese objetivo. Sin embargo, el camino hacia la automatización de modelos requiere resolver un conjunto de desafíos fundamentales que deben ser resueltos primero.

El puente hacia ese objetivo pasa directamente a través de la ingeniería de aprendizaje automático (ML). Un concepto erróneo común sostiene que el ML es una tecnología predecesora de la inteligencia artificial moderna y que los modelos de base han reemplazado simplemente. Esto malentende la relación. Como disciplina académica, el ML abarca todos los aspectos del entrenamiento de modelos, incluido el entrenamiento de modelos de base en el centro del momento actual de la inteligencia artificial. Sin embargo, hay una diferencia significativa en escala y complejidad de datos.

Los modelos de ML tradicionales suelen entrenarse en conjuntos de datos cuidadosamente curados y específicos de dominio que contienen miles o millones de ejemplos. Los modelos de base, por otro lado, se entrenan en miles de conjuntos de datos simultáneamente, extraídos de fuentes muy diferentes con formatos, procedencia y calidad inconsistentes. Esta diferencia en escala y heterogeneidad de datos es una razón fundamental por la que la gestión de datos se vuelve mucho más difícil e importante a medida que los modelos se vuelven más potentes.

Eso hace que la comprensión de los datos sea un cuello de botella central en la automatización del desarrollo de modelos. Un sistema de inteligencia artificial que pueda interpretar datos heterogéneos y mejorar las tuberías construidas alrededor de ellos podría, en principio, mejorar su propio proceso de entrenamiento y ayudar a construir mejores modelos. Una vez que la inteligencia artificial pueda mejorar el proceso por el cual se entrena, las mejoras se desploman hacia abajo a cada dominio donde se aplica la inteligencia artificial.

Tres Barreras que Obstaculizan el Camino

La primera barrera es la fragmentación del contexto. En casi todas las organizaciones, las señales, experimentos, definiciones de características y conocimiento institucional relevantes para cualquier problema de modelado determinado están dispersos en almacenes de datos, cuadernos y tuberías que nunca fueron diseñados para comunicarse entre sí. Considera un sistema de salud que construye un modelo de detección de sepsis. Los criterios clínicos relevantes para ese problema, como umbrales vitales, valores de laboratorio y estándares de documentación, pueden vivir en módulos completamente separados de un sistema de registro electrónico de salud.

La segunda barrera es la ambigüedad semántica. El significado no es inherente a los datos, sino que es contextual y organizacional. El mismo nombre de campo en dos bases de datos diferentes puede referirse a cosas ligeramente diferentes. Conceptos como ingresos, usuario activo y abandono rutinariamente tienen múltiples definiciones válidas dentro de una sola empresa. Incluso un concepto tan aparentemente simple como “ingresos” puede causar problemas. Un equipo de ventas puede definir los ingresos como el valor total de los contratos firmados este trimestre, mientras que el equipo de finanzas define los ingresos como el dinero recibido en efectivo. El equipo de productos tiene otra comprensión, ya que define el término para significar ingresos reconocidos distribuidos en un período de suscripción. Todos están extrayendo de campos literalmente llamados “ingresos” en sus respectivos sistemas, pero un informe entre equipos que los combine silenciosamente mezclaría tres números incompatibles.

La tercera y más sistémica barrera es la ausencia de memoria institucional documentada. Rastrear la procedencia, resolver inconsistencias y mantener señales de calidad en tantas fuentes es un problema sin resolver incluso para los equipos humanos. Sin una memoria institucional de lo que se intentó y cómo funcionaron bien estos enfoques, cualquier mecanismo de automatización de modelos seguirá redescubriendo los mismos callejones sin salida, desperdiciando tiempo y recursos.

Considera un equipo de ciencia de datos en una empresa minorista que construye un modelo de previsión de demanda. A lo largo de tres años, una docena de analistas han descubierto cada uno de forma independiente que los datos climáticos crudos degradan el rendimiento del modelo durante las semanas de vacaciones, que la alimentación de inventario de un proveedor determinado contiene un retraso sistemático y que el enfoque estándar para manejar eventos promocionales causa una fuga de objetivo. Cuando los analistas originales se mudaron a otros equipos o abandonaron la empresa, el conocimiento se fue con ellos. Sin un registro institucional de lo que se intentó, qué falló y por qué, un mecanismo de automatización de modelos no puede basarse en la experiencia acumulada. Simplemente comienza desde cero, una y otra vez, desperdiciando innecesariamente tiempo.

Qué Requiere una Solución Real

La historia de la automatización de ML es una historia de soluciones parciales. AutoML abordó el problema estrecho de la optimización de hiperparámetros, pero no pudo manejar las discrepancias de objetivos o razonar sobre la intención organizacional. MLOps hizo que las tuberías de producción fueran más robustas y fáciles de monitorear, pero las herramientas de MLOps ejecutan una estrategia en lugar de definirla. Los agentes de codificación más recientes representan un paso adelante genuino, pero han heredado el mismo punto ciego. Generan código bien mientras operan sin contexto organizacional ni memoria institucional.

Un sistema capaz de ingeniería de ML genuinamente autónoma necesitaría capacidades que ninguna herramienta existente proporciona en combinación. Necesitaría mapear objetivos comerciales a objetivos de modelo, lo que es una traducción que no se puede inferir solo de los datos. Necesitaría descubrir datos relevantes en sistemas fragmentados con esquemas inconsistentes, mientras se adhiere automáticamente a las restricciones de cumplimiento, gobernanza y seguridad, en lugar de requerir que los humanos las gestionen como un proceso separado. Necesitaría memoria institucional para mostrar el trabajo existente, comprender por qué se abandonaron los experimentos pasados y basarse en lo que ya saben los colegas.

Las pistas de auditoría rigurosas que rastrean la procedencia a través de versiones de datos, definiciones de características y compromisos de código necesitarían ser un mecanismo central para basar el sistema en lo que realmente sucedió. Y cualquier sistema de este tipo requeriría un diseño de bucle de retroalimentación humano pensativo. No una elección binaria entre automatización completa y control manual completo, sino apoyo para niveles variables de interacción dependiendo de la tarea, las apuestas y la confianza del sistema en cada punto de decisión. La automatización que evita el juicio humano en momentos críticos no es una característica de una inteligencia artificial bien diseñada; más bien, es un modo de fallo.

Lo que ningún laboratorio ha resuelto aún es cómo crear una comprensión semántica de los datos organizacionales que entiende lo que significan los datos en un contexto institucional específico. MCP resuelve el problema de conectividad. Todavía no resuelve el problema del significado. Eso sigue siendo la frontera de investigación abierta.

Qué se Vuelve Posible

Las implicaciones económicas de resolver estos problemas son significativas. El desarrollo de ML personalizado hoy requiere practicantes especializados y semanas de iteración, incluso para problemas bien definidos. Un sistema que pudiera navegar por el flujo de trabajo completo de forma autónoma, desde la definición del problema hasta el descubrimiento de datos, el desarrollo de modelos y la evaluación de modelos, cambiaría dramáticamente esa ecuación, comprimiendo los plazos y abriendo casos de uso de alto valor que actualmente son demasiado intensivos en recursos para perseguirlos. Los proyectos que antes requerían equipos con profundo conocimiento de ML trabajando durante semanas ahora se pueden completar en días sin tener que utilizar tanto tiempo de los expertos en ML escasos.

Los desafíos de la fragmentación del contexto, la ambigüedad semántica y la memoria institucional ausente no son únicos para el ML empresarial. Se manifiestan bajo diferentes restricciones en la construcción de tuberías de entrenamiento de modelos de base, donde miles de conjuntos de datos heterogéneos deben agregarse, filtrarse y refinarse iterativamente. Si bien los dos entornos difieren en estructura y objetivo, ambos están limitados por el mismo cuello de botella subyacente: la ausencia de sistemas que puedan recuperar confiablemente el contexto, rastrear la procedencia y basarse en el trabajo anterior a lo largo de las iteraciones. La automatización del desarrollo de modelos en la empresa es, por lo tanto, un paso crítico en el camino hacia los sistemas de inteligencia artificial capaces de mejorarlos.

Doris Xin es CEO y co-fundadora de Disarray. Como PhD de UC Berkeley RISELab y becaria de investigación graduada de la NSF, Doris perfeccionó su experiencia en ML y como ingeniera de ML temprana en LinkedIn.

Moustafa AbdelBaky es CTO y co-fundador de Disarray. Es tres veces becario de PhD de IBM con casi dos décadas de investigación en orquestación autónoma en sistemas distribuidos, edge ML y AI en tiempo real para las misiones aéreas y espaciales autónomas de la NASA.