Contáctenos

Google Research identifica un cuello de botella en los enfoques de hiperescala para la IA

Inteligencia Artificial

Google Research identifica un cuello de botella en los enfoques de hiperescala para la IA

mm

Un nuevo artículo de Google Research indica que la tendencia actual hacia la conservación de conjuntos de datos de gran volumen puede ser contraproducente para el desarrollo de sistemas de inteligencia artificial efectivos. De hecho, la investigación indica que pueden surgir mejores productos de aprendizaje automático si se capacita en less conjuntos de datos más precisos (es decir, técnicamente "peores").

Si los principios obtenidos por los investigadores son válidos, significa que los conjuntos de datos de "hiperescala", como el lanzado recientemente LAION-400M (que contiene 400 millones de pares texto/imagen) y los datos detrás del motor de lenguaje neuronal GPT-3 (que contiene 175 mil millones de parámetros) están potencialmente sujetos a una especie de "límite térmico" en las arquitecturas y metodologías de aprendizaje automático tradicionales y populares, por el cual el gran volumen de datos "satura" las aplicaciones posteriores y les impide generalizarse de manera útil.

Los investigadores también proponen métodos alternativos para repensar la arquitectura de conjuntos de datos a hiperescala, con el fin de corregir el desequilibrio.

El documento dice:

Al profundizar en la comprensión de las razones que dan lugar a estos fenómenos, demostramos que el comportamiento de saturación que observamos está estrechamente relacionado con la forma en que las representaciones evolucionan a través de las capas de los modelos. Presentamos un escenario aún más extremo donde el rendimiento en la fase inicial y la fase final son incompatibles. Es decir, para obtener un mejor rendimiento en la fase final, necesitamos reducir la precisión en la fase inicial.

La Estudio se titula Explorando los límites del pre-entrenamiento a gran escala, y proviene de cuatro autores de Google Research.

Investigando la 'saturación'

Los autores desafían las suposiciones prevalecientes sobre las relaciones entre el aprendizaje automático y los datos en la era de los datos a hiperescala: que escalar los modelos y el tamaño de los datos mejora notablemente el rendimiento (una creencia que se ha consolidado en el revuelo sobre GPT-3 desde su lanzamiento); y que este rendimiento mejorado "se transmite" a las tareas posteriores de una manera lineal (es decir, deseable), de modo que los algoritmos en el dispositivo que finalmente se lanzan al mercado, derivados de conjuntos de datos ingobernablemente enormes y modelos entrenados sin destilar, se benefician completamente de los conocimientos de las arquitecturas de tamaño completo y de flujo ascendente.

'Estas vistas,' los investigadores señalan 'Sugerimos que invertir esfuerzos de investigación y computación en mejorar el rendimiento de un corpus masivo resultaría rentable porque eso nos permitiría resolver muchas tareas posteriores prácticamente de forma gratuita.'

Sin embargo, el artículo sostiene que la falta de recursos informáticos y los consiguientes métodos "económicos" de evaluación de modelos contribuyen a una falsa impresión sobre la dinámica de la relación entre el volumen de datos y la utilidad de los sistemas de IA. Los autores identifican este hábito como una deficiencia importante, ya que la comunidad investigadora suele asumir que los resultados locales (positivos) se traducirán en implementaciones posteriores útiles.

Debido a limitaciones computacionales, no se reporta el rendimiento para diferentes opciones de valores de hiperparámetros. Los gráficos de escalado parecen más favorables si el hiperparámetro elegido para cada escala es fijo o está determinado por una función de escalado simple.

Los investigadores afirman además que muchos estudios de escalamiento no se miden con escalas absolutas, sino como mejoras incrementales con respecto al estado del arte (SotA), y observan que "no hay ninguna razón, a priori, para que el escalamiento se mantenga fuera del rango estudiado".

Pre-entrenamiento

El artículo aborda la práctica del preentrenamiento, una medida diseñada para ahorrar recursos computacionales y reducir los plazos, a menudo tremendos, necesarios para entrenar un modelo con datos a gran escala desde cero. Las instantáneas de preentrenamiento gestionan el ABC de cómo se generalizan los datos de un dominio durante el entrenamiento y se utilizan comúnmente en diversos sectores y especialidades del aprendizaje automático, desde el procesamiento del lenguaje natural (PLN) hasta los deepfakes.

Investigaciones académicas anteriores han fundada que el entrenamiento previo puede mejorar notablemente la solidez y la precisión del modelo, pero el nuevo documento sugiere que la complejidad de las funciones, incluso en plantillas de entrenamiento previo relativamente poco capacitadas, podría ser más beneficiosa si se deriva a procesos posteriores en la tubería .

Sin embargo, esto no puede suceder si los investigadores siguen dependiendo de modelos preentrenados que utilizan las mejores prácticas actuales en la aplicación de las tasas de aprendizaje, lo cual, según concluye la investigación, puede afectar notablemente la precisión final de las aplicaciones del trabajo. En este sentido, los autores señalan que «no se puede esperar encontrar un único punto de control preentrenado que funcione bien en todas las tareas posteriores posibles».

El Estudio

Para establecer el efecto de saturación, los autores realizaron 4800 experimentos en Vision Transformers, ResNets y MLP-Mixers, cada uno con un número variable de parámetros, de 10 millones a 10 mil millones, todos entrenados en los conjuntos de datos de mayor volumen disponibles en los sectores respectivos. incluido ImagenNet21K y el propio Google JFT-300M.

Los resultados, afirma el artículo, muestran que diversidad de datos Debe considerarse un eje adicional al intentar escalar los datos, los parámetros del modelo y el tiempo de cómputo. Actualmente, la alta concentración de recursos de entrenamiento (y la atención de los investigadores) en la fase inicial de un pipeline de IA está saturando las aplicaciones posteriores con una avalancha de parámetros, lo que reduce la capacidad de los algoritmos implementados para navegar por las características y realizar inferencias o transformaciones.

El artículo concluye:

Mediante un estudio exhaustivo, establecimos que, a medida que mejoramos el rendimiento de la tarea anterior, ya sea mediante el escalado o mediante opciones de hiperparámetros y arquitectura, el rendimiento de las tareas posteriores muestra un comportamiento de saturación. Además, proporcionamos sólida evidencia empírica de que, contrariamente a la narrativa común, el escalado no conduce a una solución universal.

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai