Inteligencia artificial
Investigadores de Google Descubren el Problema de Subespecificación que Está Limitando a Muchos Modelos de IA

Recientemente, un equipo de investigadores de Google ha identificado una causa común de los fallos de los modelos de IA, señalando la subespecificación como una de las razones principales por las que los modelos de aprendizaje automático a menudo funcionan de manera muy diferente en el mundo real que durante las pruebas y el desarrollo.
Los modelos de aprendizaje automático a menudo fallan cuando se enfrentan a tareas en un entorno del mundo real, incluso si los modelos funcionan de manera óptima en el laboratorio. Hay muchas razones por las que se produce la discrepancia entre el rendimiento en la formación/desarrollo y el rendimiento en el mundo real. Una de las razones más comunes por las que los modelos de IA fallan durante las tareas del mundo real es un concepto conocido como cambio de datos. El cambio de datos se refiere a una diferencia fundamental entre el tipo de datos utilizado para desarrollar un modelo de aprendizaje automático y los datos que se alimentan al modelo durante la aplicación. Por ejemplo, los modelos de visión por computadora entrenados con datos de imágenes de alta calidad tendrán dificultades para funcionar cuando se les alimenten datos capturados por cámaras de baja calidad que se encuentran en el entorno diario del modelo.
Según MIT Technology Review, un equipo de 40 investigadores diferentes de Google han identificado otra razón por la que el rendimiento de un modelo de aprendizaje automático puede variar tanto. El problema es la “subespecificación”, un concepto estadístico que describe problemas en los que los fenómenos observados tienen muchas causas posibles, no todas las cuales son tenidas en cuenta por el modelo. Según el líder del estudio, Alex D’Amour, el problema se produce en muchos modelos de aprendizaje automático, diciendo que el fenómeno “ocurre en todas partes”.
El método típico de entrenamiento de un modelo de aprendizaje automático implica alimentar al modelo con una gran cantidad de datos que puede analizar y extraer patrones relevantes. Después, el modelo se le presentan ejemplos que no ha visto y se le pide que prediga la naturaleza de esos ejemplos en función de las características que ha aprendido. Una vez que el modelo ha alcanzado un cierto nivel de precisión, el entrenamiento generalmente se considera completo.
Según el equipo de investigación de Google, se necesita hacer más para garantizar que los modelos puedan generalizar realmente a datos no de entrenamiento. El método clásico de entrenamiento de modelos de aprendizaje automático producirá varios modelos que pueden aprobar sus pruebas, pero estos modelos difieren en pequeños detalles que parecen insignificantes pero no lo son. Diferentes nodos en los modelos tendrán valores aleatorios asignados de manera diferente, o los datos de entrenamiento podrían seleccionarse o representarse de diferentes maneras. Estas variaciones son pequeñas y a menudo arbitrarias, y si no tienen un gran impacto en cómo funcionan los modelos durante el entrenamiento, son fáciles de pasar por alto. Sin embargo, cuando el impacto de todos estos pequeños cambios se acumula, pueden generar grandes variaciones en el rendimiento del mundo real.
Esta subespecificación es problemática porque significa que, incluso si el proceso de entrenamiento es capaz de producir buenos modelos, también puede producir un modelo pobre y la diferencia no se descubrirá hasta que el modelo salga de la producción y entre en uso.
Para evaluar el impacto de la subespecificación, el equipo de investigación examinó varios modelos. Cada modelo se entrenó utilizando el mismo proceso de entrenamiento, y luego los modelos se sometieron a una serie de pruebas para resaltar las diferencias en el rendimiento. En un caso, 50 versiones diferentes de un sistema de reconocimiento de imágenes se entrenaron en el conjunto de datos ImageNet. Los modelos eran todos iguales, salvo por los valores de la red neuronal que se les asignaron de manera aleatoria al comienzo del entrenamiento. Las pruebas de estrés utilizadas para determinar las diferencias en los modelos se realizaron utilizando ImageNet-C, una variación del conjunto de datos original que consiste en imágenes alteradas a través de ajustes de contraste o brillo. Los modelos también se probaron en ObjectNet, una serie de imágenes que presentan objetos cotidianos en orientaciones y contextos inusuales. Aunque todos los 50 modelos tuvieron un rendimiento aproximadamente igual en el conjunto de datos de entrenamiento, el rendimiento fluctuó ampliamente cuando los modelos se sometieron a las pruebas de estrés.
El equipo de investigación encontró resultados similares cuando entrenaron y probaron dos sistemas de NLP diferentes, así como cuando probaron varios modelos de visión por computadora. En cada caso, los modelos se desviaron ampliamente entre sí, aunque el proceso de entrenamiento para todos los modelos fue el mismo.
Según D’Amour, los investigadores y ingenieros de aprendizaje automático necesitan hacer muchas más pruebas de estrés antes de lanzar los modelos al mundo. Esto puede ser difícil de hacer, dado que las pruebas de estrés necesitan personalizarse para tareas específicas utilizando datos del mundo real, datos que pueden ser difíciles de obtener para ciertas tareas y contextos. Una posible solución al problema de la subespecificación es producir muchos modelos al mismo tiempo y luego probar los modelos en una serie de tareas del mundo real, seleccionando el modelo que muestra consistentemente los mejores resultados. Desarrollar modelos de esta manera lleva mucho tiempo y recursos, pero la compensación podría valer la pena, especialmente para los modelos de IA utilizados en contextos médicos u otros ámbitos donde la seguridad es una preocupación principal. Como explicó D’Amour a través de MIT Technology Review:
“Tenemos que mejorar para especificar exactamente qué son nuestros requisitos para nuestros modelos. Porque a menudo lo que termina sucediendo es que descubrimos estos requisitos solo después de que el modelo ha fallado en el mundo”.










