talón Google Research identifica un cuello de botella en los enfoques de hiperescala de la IA - Unite.AI
Contáctanos

Inteligencia artificial

Google Research identifica un cuello de botella en los enfoques de hiperescala para la IA

mm
Actualizado on

Un nuevo artículo de Google Research indica que la tendencia actual hacia la conservación de conjuntos de datos de gran volumen puede ser contraproducente para el desarrollo de sistemas de inteligencia artificial efectivos. De hecho, la investigación indica que pueden surgir mejores productos de aprendizaje automático si se capacita en menos conjuntos de datos precisos (es decir, técnicamente 'peores').

Si los principios obtenidos por los investigadores son válidos, significa que conjuntos de datos de 'hiperescala' como el lanzado recientemente LAION-400M (que contiene 400 millones de pares de texto/imagen) y los datos detrás del motor de lenguaje neuronal GPT-3 (que contiene 175 mil millones de parámetros), están potencialmente sujetos a una especie de "límite térmico" en las arquitecturas de aprendizaje automático tradicionales y populares. y metodologías, por lo que el gran volumen de datos 'satura' las aplicaciones posteriores y evita que se generalicen de manera útil.

Los investigadores también proponen métodos alternativos para repensar la arquitectura de conjuntos de datos a hiperescala, con el fin de corregir el desequilibrio.

El documento dice:

'Profundizando para comprender las razones que dan lugar a estos fenómenos, mostramos que el comportamiento de saturación que observamos está estrechamente relacionado con la forma en que evolucionan las representaciones a través de las capas de los modelos. Mostramos un escenario aún más extremo donde el rendimiento en upstream y downstream están en desacuerdo entre sí. Es decir, para tener un mejor rendimiento aguas abajo, necesitamos perjudicar la precisión aguas arriba'.

El estudio se titula Explorando los límites del pre-entrenamiento a gran escala, y proviene de cuatro autores de Google Research.

Investigando la 'saturación'

Los autores desafían las suposiciones predominantes de aprendizaje automático>relaciones de datos en la era de los datos a hiperescala: que escalar los modelos y el tamaño de los datos mejora notablemente el rendimiento (una creencia que se ha cimentado en la exageración sobre GPT-3 desde su lanzamiento); y que este rendimiento mejorado 'pasa' a las tareas posteriores de una manera lineal (es decir, deseable), de modo que los algoritmos en el dispositivo que finalmente se lanzan al mercado, derivados de los enormes conjuntos de datos ingobernables y modelos entrenados no destilados, se benefician completamente de los conocimientos de las arquitecturas ascendentes de tamaño completo.

'Estas vistas,' los investigadores señalan 'sugiero que gastar esfuerzo de computación e investigación en mejorar el rendimiento en un corpus masivo sería rentable porque eso nos permitiría resolver muchas tareas posteriores casi gratis.'

Pero el documento sostiene que la falta de recursos informáticos y los subsiguientes métodos "económicos" de evaluación de modelos están contribuyendo a una falsa impresión de la dinámica de la relación entre el volumen de datos y los sistemas de IA útiles. Los autores identifican este hábito como 'una gran deficiencia', ya que la comunidad de investigación generalmente asume que los resultados locales (positivos) se traducirán en implementaciones útiles posteriores:

'[Debido] a las limitaciones informáticas, no se informa el rendimiento para diferentes opciones de valores de hiperparámetro. Los diagramas de escala parecen más favorables si el hiperparámetro elegido para cada escala es fijo o está determinado por una función de escala simple.

Los investigadores afirman además que muchos estudios de escala no se miden con escalas absolutas, sino como mejoras incrementales con respecto al estado del arte (SotA), observando que "no hay razón, a priori, para que la escala se mantenga fuera de el rango estudiado'.

Pre-entrenamiento

El artículo aborda la práctica del "preentrenamiento", una medida diseñada para ahorrar recursos informáticos y reducir los plazos, a menudo horrendos, necesarios para entrenar un modelo con datos a gran escala desde cero. Las instantáneas previas al entrenamiento manejan el 'ABC' de la forma en que los datos dentro de un dominio se generalizarán durante el entrenamiento, y se usan comúnmente en una variedad de sectores y especialidades de aprendizaje automático, desde el procesamiento del lenguaje natural (PLN) hasta los deepfakes.

Investigaciones académicas anteriores han encontrado que el entrenamiento previo puede mejorar notablemente la solidez y la precisión del modelo, pero el nuevo documento sugiere que la complejidad de las funciones, incluso en plantillas de entrenamiento previo relativamente poco capacitadas, podría ser más beneficiosa si se deriva a procesos posteriores en la tubería .

Sin embargo, esto no puede suceder si los investigadores continúan dependiendo de modelos previamente entrenados que utilizan las mejores prácticas actuales en la aplicación de tasas de aprendizaje, lo que, concluye la investigación, puede afectar notablemente la precisión final de las aplicaciones finales del trabajo. A este respecto, los autores señalan que "no se puede esperar encontrar un punto de control entrenado previamente que funcione bien en todas las tareas posteriores posibles".

El Estudio

Para establecer el efecto de saturación, los autores realizaron 4800 experimentos en Vision Transformers, ResNets y MLP-Mixers, cada uno con un número variable de parámetros, de 10 millones a 10 mil millones, todos entrenados en los conjuntos de datos de mayor volumen disponibles en los sectores respectivos. incluido ImagenNet21K y la propia de Google JFT-300M.

Los resultados, afirma el artículo, muestran que diversidad de datos debe considerarse como un eje adicional cuando se intenta aumentar la escala de los datos, los parámetros del modelo y el tiempo de cálculo. Tal como está, la gran concentración de recursos de capacitación (y la atención de los investigadores) en la sección ascendente de una canalización de IA está destruyendo de manera efectiva las aplicaciones descendentes con una avalancha de parámetros hasta un punto de 'saturación', lo que reduce la capacidad de los algoritmos implementados para navegar. a través de características y realizar inferencias o transformaciones de efectos.

El artículo concluye:

“A través de un extenso estudio, establecimos que a medida que mejoramos el rendimiento de la tarea anterior, ya sea mediante la ampliación o las opciones arquitectónicas y de hiperparámetros, el rendimiento de las tareas posteriores muestra un comportamiento de saturación. Además, proporcionamos pruebas empíricas sólidas de que, contrariamente a la narrativa común, escalar no conduce a una solución de modelo único para todos.