Inteligencia Artificial
Entrenamiento de modelos de visión artificial con ruido aleatorio en lugar de imágenes reales

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han experimentado con el uso de imágenes de ruido aleatorio en conjuntos de datos de visión por computadora para entrenar modelos de visión por computadora y han descubierto que, en lugar de producir basura, el método es sorprendentemente efectivo:

Modelos generativos del experimento, ordenados por rendimiento. Fuente: https://openreview.net/pdf?id=RQUl8gZnN7O
Introducir aparente "basura visual" en arquitecturas de visión artificial populares no debería resultar en este tipo de rendimiento. En el extremo derecho de la imagen de arriba, las columnas negras representan puntuaciones de precisión (en Imagenet-100) para cuatro conjuntos de datos "reales". Si bien los conjuntos de datos de "ruido aleatorio" anteriores (representados en varios colores, véase el índice superior izquierdo) no pueden igualarlo, casi todos se encuentran dentro de límites superiores e inferiores respetables (líneas discontinuas rojas) de precisión.
En este sentido, "precisión" no significa que un resultado necesariamente se parezca a un hacer, iglesia, Pizza, o cualquier otro dominio en particular para el que podría estar interesado en crear un síntesis de imagen sistema, como una Red Adversaria Generativa, o un marco codificador/descodificador.
Más bien, significa que los modelos CSAIL han derivado "verdades" centrales ampliamente aplicables a partir de datos de imágenes aparentemente tan no estructurados que no deberían ser capaces de proporcionarlas.
Diversidad vs. Naturalismo
Tampoco pueden atribuirse estos resultados a sobreajuste: una animada discusión Entre los autores y revisores en Open Review revela que mezclar contenido diferente de conjuntos de datos visualmente diversos (como 'hojas muertas', 'fractales' y 'ruido de procedimiento'; vea la imagen a continuación) en un conjunto de datos de entrenamiento mejora la exactitud en estos experimentos.
Esto sugiere (y es una noción un tanto revolucionaria) un nuevo tipo de "subadaptación", donde la "diversidad" triunfa sobre el "naturalismo".

La página del proyecto para la iniciativa le permite ver de forma interactiva los diferentes tipos de conjuntos de datos de imágenes aleatorias que se utilizan en el experimento. Fuente: https://mbaradad.github.io/learning_with_noise/
Los resultados obtenidos por los investigadores ponen en tela de juicio la relación fundamental entre las redes neuronales basadas en imágenes y las imágenes del "mundo real" que se les arrojan de forma alarmante. mayores volúmenes cada año, e implican que la necesidad de obtener, curar y de otro modo disputar conjuntos de datos de imágenes a hiperescala eventualmente puede volverse redundante. Los autores afirman:
“Los sistemas de visión actuales están entrenados en grandes conjuntos de datos, y estos conjuntos de datos tienen costos: la curación es costosa, heredan sesgos humanos y existen preocupaciones sobre la privacidad y los derechos de uso. Para contrarrestar estos costos, ha aumentado el interés en aprender de fuentes de datos más baratas, como imágenes sin etiquetar.
'En este artículo, vamos un paso más allá y nos preguntamos si podemos prescindir por completo de los conjuntos de datos de imágenes reales, aprendiendo de los procesos de ruido procedimental'.
Los investigadores sugieren que la generación actual de arquitecturas de aprendizaje automático puede estar infiriendo algo mucho más fundamental (o, al menos, inesperado) a partir de imágenes de lo que se creía anteriormente, y que las imágenes "sin sentido" pueden potencialmente impartir una gran parte de este conocimiento de manera mucho más económica, incluso con el posible uso de datos sintéticos ad hoc, a través de arquitecturas de generación de conjuntos de datos que generan imágenes aleatorias en el momento del entrenamiento:
"Identificamos dos propiedades clave que hacen que los datos sintéticos sean buenos para entrenar sistemas de visión: 1) naturalismo, 2) diversidad. Curiosamente, los datos más naturalistas no siempre son los mejores, ya que el naturalismo puede tener el costo de la diversidad.
“El hecho de que los datos naturalistas ayuden puede no ser sorprendente y sugiere que, de hecho, los datos reales a gran escala tienen valor. Sin embargo, encontramos que lo crucial no es que los datos sean real pero que sea naturalista, es decir, debe capturar ciertas propiedades estructurales de los datos reales.
'Muchas de estas propiedades pueden capturarse en modelos de ruido simples.'

Visualizaciones de características resultantes de un codificador derivado de AlexNet en algunos de los diversos conjuntos de datos de imágenes aleatorias utilizados por los autores, que abarcan la tercera y la quinta capa convolucional (la última). La metodología empleada aquí sigue la descrita en Investigación de IA de Google de 2017.
La , presentado en la 35ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2021) en Sydney, se titula Aprender a ver mirando el ruido, y proviene de seis investigadores del CSAIL, con igual contribución.
el trabajo fue recomendado por consenso para una selección destacada en NeurIPS 2021, con comentaristas pares caracterizando el artículo como "un avance científico" que abre una "gran área de estudio", incluso si plantea tantas preguntas como respuestas.
En el artículo, los autores concluyen:
«Hemos demostrado que, cuando se diseñan utilizando los resultados de investigaciones anteriores sobre estadísticas de imágenes naturales, estos conjuntos de datos pueden entrenar con éxito representaciones visuales. Esperamos que este artículo motive el estudio de nuevos modelos generativos capaces de producir ruido estructurado logrando un rendimiento aún mayor cuando se utilizan en un conjunto diverso de tareas visuales.
¿Sería posible igualar el rendimiento obtenido con el preentrenamiento de ImageNet? Quizás, a falta de un conjunto de entrenamiento amplio y específico para una tarea en particular, el mejor preentrenamiento no sea usar un conjunto de datos real estándar como ImageNet.












