talón Resiliencia > Precisión: por qué la 'resiliencia del modelo' debería ser la verdadera métrica para poner en funcionamiento los modelos - Unite.AI
Contáctanos

Inteligencia artificial

Resiliencia > Precisión: Por qué la 'resiliencia del modelo' debería ser la verdadera métrica para poner en funcionamiento los modelos

mm
Actualizado on

Por Ingo Mierswa, Fundador, Presidente y Jefe Científico de Datos en Minero rápido.

La ciencia de datos ha logrado grandes avances en los últimos años y muchas organizaciones están utilizando análisis avanzados o modelos de aprendizaje automático para obtener conocimientos más profundos sobre los procesos y, en algunos casos, incluso para predecir resultados probables para el futuro. Para otras “ciencias”, a menudo no está claro si un proyecto tendrá éxito o no, y ha habido informes de que hasta el 87% de los proyectos de ciencia de datos nunca llegan a producción. Si bien no se puede esperar una tasa de éxito del 100 %, existen algunos patrones en los proyectos de ciencia de datos que conducen a tasas de éxito más altas de lo que debería considerarse aceptable en el campo. Esos patrones problemáticos parecen existir independientemente de cualquier industria o caso de uso en particular, lo que sugiere que existe un problema universal en la ciencia de datos que debe abordarse.

Midiendo el éxito del aprendizaje automático

Los científicos de datos que crean modelos de aprendizaje automático (ML) se basan en criterios matemáticos bien definidos para medir el rendimiento de dichos modelos. Cuál de esos criterios se aplica depende principalmente del tipo de modelo. Supongamos que un modelo debe predecir clases o categorías para situaciones nuevas, por ejemplo, si un cliente se va a retirar o no. En situaciones como estas, los científicos de datos usarían medidas como la precisión (con qué frecuencia el modelo es correcto) o la precisión (con qué frecuencia los clientes realmente abandonan si predecimos la rotación).

Los científicos de datos necesitan criterios objetivos como este porque parte de su trabajo es optimizar esos criterios evaluativos para producir el mejor modelo. De hecho, además de preparar los datos para que estén listos para el modelado, la construcción y ajuste de esos modelos es donde los científicos de datos pasan la mayor parte de su tiempo.

La desventaja de esto es que los científicos de datos en realidad no se están enfocando mucho en poner esos modelos en producción, lo cual es un problema por más de una razón. En primer lugar, los modelos que no producen resultados exitosos no se pueden usar para generar un impacto comercial para las organizaciones que los implementan. En segundo lugar, debido a que estas organizaciones han invertido tiempo y dinero en desarrollar, capacitar y poner en funcionamiento modelos que no han producido resultados exitosos cuando se comparan con datos del "mundo real", es más probable que consideren que ML y otras herramientas de ciencia de datos son inútiles para su organización. y negarse a seguir adelante con futuras iniciativas de ciencia de datos.

La verdad es que los científicos de datos simplemente disfrutan ajustando los modelos y dedican mucho tiempo a esto. Pero sin impacto comercial, este tiempo no se gasta sabiamente, lo cual es particularmente doloroso dado lo escasos que son los científicos de datos como recurso en el mundo actual.

El premio Netflix y el fracaso de la producción

Hemos visto este fenómeno de inversión excesiva en la construcción de modelos y no en la puesta en funcionamiento de los modelos en los últimos años. El Premio Netflix fue una competencia abierta para el mejor algoritmo de filtrado colaborativo para predecir las calificaciones de los usuarios para las películas. Si le otorgara una calificación alta a una nueva película, es probable que la haya disfrutado; por lo tanto, con este sistema de calificación, Netflix le recomendará ciertos títulos y, si disfruta del contenido recomendado, es probable que permanezca más tiempo como cliente de Netflix. El gran premio fue la suma de 1 millón de dólares, otorgado al equipo que pudo mejorar el propio algoritmo de Netflix en al menos un 10%.

El desafío comenzó en 2006 y durante los siguientes tres años, las contribuciones de más de 40,000 10 equipos de ciencia de datos en todo el mundo llevaron a una mejora impresionante de más del XNUMX % en el éxito de la recomendación de títulos. Sin embargo, los modelos del equipo ganador nunca fueron operacionalizados. Netflix dijo que “el aumento en la precisión no parecía justificar el esfuerzo necesario para llevar esos modelos a producción”.

Por qué lo óptimo no siempre es óptimo

La precisión del modelo y otros criterios de ciencia de datos se han utilizado durante mucho tiempo como métrica para medir el éxito de un modelo antes de ponerlo en producción. Como hemos visto, muchos modelos ni siquiera llegan a esta etapa, lo que es una pérdida de recursos, tanto en términos de energía como de tiempo invertido.

Pero hay más problemas con esta cultura de inversión excesiva en el ajuste de modelos. El primero es un sobreajuste involuntario de los datos de prueba, que dará como resultado modelos que se verán bien para el científico de datos a cargo, pero en realidad tendrán un rendimiento inferior una vez en producción, a veces incluso causando daños. Esto sucede por dos razones:

  1. Existe una discrepancia bien conocida entre el error de prueba y lo que verá en producción.
  2. El impacto comercial y los criterios de desempeño de la ciencia de datos a menudo están correlacionados, pero los modelos "óptimos" no siempre brindan el mayor impacto

El primer punto anterior también se llama “sobreajuste al conjunto de prueba.” Es un fenómeno bien conocido, especialmente entre los participantes de concursos de ciencia de datos como los de Kaggle. Para estas competiciones, ya se puede ver una versión más fuerte de este fenómeno entre las tablas de clasificación públicas y privadas. De hecho, un participante podría ganar la clasificación pública en una competencia de Kaggle sin incluso leyendo los datos. De manera similar, es posible que el ganador de la tabla de clasificación privada y la competencia general no haya producido un modelo que pueda mantener su rendimiento en cualquier otro conjunto de datos que no sea el que se evaluó.

La precisión no es igual al impacto comercial

Durante demasiado tiempo hemos aceptado esta práctica, que conduce a la lenta adaptación de los modelos a los conjuntos de datos de prueba. Como resultado, lo que parece el mejor modelo resulta ser, en el mejor de los casos, mediocre:

  • Mediciones como la precisión predictiva a menudo no equivalen al impacto comercial
  • Una mejora de la precisión del 1 % no se puede traducir en un 1 % de mejores resultados comerciales
  • Hay casos en los que un modelo de bajo rendimiento supera a otros, en cuanto a impacto en el negocio
  • También se deben tener en cuenta otros factores, como el mantenimiento, la velocidad de calificación o la solidez frente a los cambios en el tiempo (llamada "resiliencia").

Este último punto es particularmente importante. Los mejores modelos no solo ganarán competencias o se verán bien en el laboratorio de ciencia de datos, sino que se mantendrán en producción y funcionarán bien en una variedad de conjuntos de prueba. Estos modelos son lo que llamamos modelos resilientes.

La deriva y la importancia de la resiliencia

Todos los modelos se deterioran con el tiempo. La única pregunta es qué tan rápido sucede esto y qué tan bien funciona el modelo bajo las circunstancias cambiantes. La razón de este deterioro es el hecho de que el mundo no es estático. Por lo tanto, los datos a los que se aplica el modelo también cambian con el tiempo. Si estos cambios ocurren lentamente, lo llamamos "deriva del concepto". Si los cambios ocurren abruptamente, lo llamamos "cambio de concepto". Por ejemplo, los clientes pueden cambiar su comportamiento de consumo lentamente con el tiempo, influenciados por las tendencias y/o el marketing. Es posible que los modelos de propensión ya no funcionen en un punto determinado. Estos cambios pueden acelerarse drásticamente en determinadas situaciones. COVID-19, por ejemplo, ha impulsado la venta de artículos como papel higiénico y desinfectantes, un aumento inesperado y fuerte en productos particulares que pueden desviar completamente ese modelo.

Es posible que un modelo resiliente no sea el mejor modelo en función de medidas como la exactitud o la precisión, pero funcionará bien en una gama más amplia de conjuntos de datos. Por esta razón, también funcionará mejor durante un período de tiempo más largo y, por lo tanto, podrá generar un impacto comercial sostenido.

Los modelos lineales y otros tipos de modelos simples a menudo son más resistentes porque es más difícil adaptarlos a un conjunto de prueba o momento específico. Los modelos más potentes pueden y deben usarse como "desafíos" para un modelo más simple, lo que permite a los científicos de datos ver si también puede resistir con el tiempo. Pero esto debe emplearse en el punto final, no al comienzo del viaje de modelado.

Si bien aún no se ha introducido un KPI formal para medir la resiliencia en el campo de la ciencia de datos, existen varias formas en que los científicos de datos pueden evaluar qué tan resistentes son sus modelos:

  • Las desviaciones estándar más pequeñas en una ejecución de validación cruzada significan que el rendimiento del modelo depende menos de las especificaciones de los diferentes conjuntos de pruebas
  • Incluso si los científicos de datos no realizan validaciones cruzadas completas, pueden usar dos conjuntos de datos diferentes para las pruebas y la validación. Menos discrepancia entre las tasas de error para los conjuntos de datos de prueba y validación indican una mayor resiliencia
  • Si el modelo se monitorea adecuadamente en producción, las tasas de error se pueden ver a lo largo del tiempo. La consistencia de las tasas de error a lo largo del tiempo es una buena señal para la resiliencia del modelo.
  • Si la solución de monitoreo del modelo elegida tiene en cuenta la deriva, los científicos de datos también deben prestar atención a qué tan bien se ve afectado el modelo por esa desviación de entrada.

Cambiando la cultura de la ciencia de datos

Una vez que se ha implementado un modelo en la etapa de puesta en funcionamiento, aún existen amenazas para la precisión del modelo. Los dos últimos puntos anteriores con respecto a la resiliencia del modelo ya requieren un seguimiento adecuado de los modelos en producción. Como punto de partida para un cambio de cultura en la ciencia de datos, se recomienda a las empresas que inviertan en el monitoreo adecuado de modelos y que comiencen a responsabilizar a los científicos de datos por la falta de rendimiento después de que los modelos se ponen en producción. Esto cambiará inmediatamente la cultura de una cultura de construcción de modelos a una cultura de creación y mantenimiento de valor para el campo de la ciencia de datos.

Como nos han demostrado los acontecimientos mundiales recientes, el mundo cambia rápidamente. Ahora, más que nunca, necesitamos construir modelos resistentes, no solo precisos, para capturar un impacto comercial significativo a lo largo del tiempo. Kaggle, por ejemplo, está organizando un desafío para impulsar a los científicos de datos de todo el mundo para ayudar a construir soluciones modelo para usar en la lucha global contra COVID-19. Anticipo que los modelos más exitosos producidos como resultado de este desafío serán los más resistentes, no los más precisos, ya que hemos visto cuán rápido pueden cambiar los datos de COVID-19 en un solo día.

La ciencia de datos debe tratarse de encontrar la verdad, no de producir el "mejor" modelo. Al mantenernos en un estándar más alto de resiliencia sobre la precisión, los científicos de datos podrán generar un mayor impacto comercial para nuestras organizaciones y ayudar a dar forma positiva al futuro.

Ingo Mierswa es un científico de datos veterano de la industria desde que comenzó a desarrollar Minero rápido en la División de Inteligencia Artificial de la Universidad TU de Dortmund en Alemania. Mierswa, el científico, es autor de numerosas publicaciones galardonadas sobre análisis predictivo y big data. Mierswa, el emprendedor, es el fundador de RapidMiner. Es responsable de la innovación estratégica y se ocupa de todas las preguntas generales sobre las tecnologías de RapidMiner. Bajo su liderazgo, RapidMiner ha crecido hasta un 300 % anual durante los primeros siete años. En 2012, encabezó la estrategia internacional con la apertura de oficinas en EE. UU., Reino Unido y Hungría. Después de dos rondas de recaudación de fondos, la adquisición de Radoop y el apoyo al posicionamiento de RapidMiner con firmas analistas líderes como Gartner y Forrester, Ingo se enorgullece de traer el mejor equipo del mundo a RapidMiner.