Suivez nous sur

Google Research identifie un goulot d'étranglement dans les approches hyperscale de l'IA

Intelligence Artificielle

Google Research identifie un goulot d'étranglement dans les approches hyperscale de l'IA

mm

Un nouvel article de Google Research indique que la tendance actuelle à la conservation d'ensembles de données à très haut volume peut être contre-productive pour le développement de systèmes d'intelligence artificielle efficaces. En fait, la recherche indique que de meilleurs produits d'apprentissage automatique peuvent émerger d'une formation sur moins des ensembles de données précis (c'est-à-dire techniquement "pires").

Si les principes obtenus par les chercheurs sont valides, cela signifie que des ensembles de données "à grande échelle" tels que le récemment sorti LAION-400M (qui contient 400 millions de paires texte/image) et les données derrière le moteur de langage neuronal GPT-3 (contenant 175 milliards de paramètres), sont potentiellement soumis à une sorte de "limite thermique" dans les architectures d'apprentissage automatique traditionnelles et populaires et les méthodologies, par lesquelles le simple volume de données « sature » les applications en aval et les empêche de se généraliser de manière utile.

Les chercheurs proposent également des méthodes alternatives pour repenser l'architecture des ensembles de données à grande échelle, afin de corriger le déséquilibre.

Le papier déclare:

«En approfondissant la compréhension des raisons qui donnent lieu à ces phénomènes, nous montrons que le comportement de saturation que nous observons est étroitement lié à la façon dont les représentations évoluent à travers les couches des modèles. Nous présentons un scénario encore plus extrême où les performances en amont et en aval sont en contradiction les unes avec les autres. Autrement dit, pour avoir de meilleures performances en aval, nous devons nuire à la précision en amont.

Les étude est intitulé Explorer les limites de la préformation à grande échelle, et provient de quatre auteurs de Google Research.

Enquête sur la "saturation"

Les auteurs remettent en question les hypothèses dominantes sur les relations entre l'apprentissage automatique et les données à l'ère des données à grande échelle : que la mise à l'échelle des modèles et de la taille des données améliore considérablement les performances (une croyance qui a été cimentée dans le battage médiatique autour de GPT-3 depuis son lancement) ; et que ces performances améliorées « passent » aux tâches en aval de manière linéaire (c'est-à-dire souhaitable), de sorte que les algorithmes sur l'appareil qui sont finalement lancés sur le marché, dérivés d'ensembles de données autrement ingouvernables et de modèles formés non distillés, bénéficient pleinement de les informations des architectures en amont pleine grandeur.

'Ces points de vue,' notent les chercheurs "Suggèrent que dépenser des efforts de calcul et de recherche pour améliorer les performances d'un corpus massif serait payant, car cela nous permettrait de résoudre de nombreuses tâches en aval presque gratuitement."

Mais l'article soutient que le manque de ressources informatiques et les méthodes "économiques" d'évaluation des modèles qui en découlent contribuent à une fausse impression de la dynamique des relations entre le volume de données et les systèmes d'IA utiles. Les auteurs identifient cette habitude comme "une lacune majeure", puisque la communauté de recherche suppose généralement que les résultats locaux (positifs) se traduiront par des implémentations ultérieures utiles :

'[En raison] des limitations de calcul, les performances pour différents choix de valeurs d'hyperparamètres ne sont pas rapportées. Les graphiques d'échelle semblent plus favorables si l'hyper-paramètre choisi pour chaque échelle est fixe ou déterminé par une simple fonction d'échelle.

Les chercheurs déclarent en outre que de nombreuses études de mise à l'échelle ne sont pas mesurées par rapport à des échelles absolues, mais comme des améliorations progressives par rapport à l'état de l'art (SOTA), observant qu '«il n'y a aucune raison, a priori, pour que la mise à l'échelle se maintienne en dehors de la gamme étudiée ».

Pré-formation

L'article aborde la pratique de la « pré-formation », une mesure conçue pour économiser les ressources de calcul et réduire les délais souvent épouvantables nécessaires à la formation d'un modèle sur des données à grande échelle à partir de zéro. Les instantanés de pré-formation gèrent l'« ABC » de la manière dont les données d'un domaine seront généralisées au cours de la formation et sont couramment utilisés dans une variété de secteurs et de spécialités d'apprentissage automatique, du traitement du langage naturel (NLP) aux deepfakes.

Des recherches universitaires antérieures ont trouvé que la pré-formation peut considérablement améliorer la robustesse et la précision du modèle, mais le nouvel article suggère que la complexité des fonctionnalités, même dans des modèles de pré-formation relativement courts, pourrait être plus avantageuse si elle est transférée vers des processus ultérieurs dans le pipeline .

Cependant, cela ne peut pas se produire si les chercheurs continuent de dépendre de modèles pré-formés qui utilisent les meilleures pratiques actuelles dans l'application des taux d'apprentissage, ce qui, conclut la recherche, peut notamment affecter la précision ultime des applications finales du travail. À cet égard, les auteurs notent que « on ne peut pas espérer trouver un point de contrôle pré-formé qui fonctionne bien sur toutes les tâches possibles en aval ».

L'Étude

Pour établir l'effet de saturation, les auteurs ont mené 4800 expériences sur les Vision Transformers, ResNets et MLP-Mixers, chacun avec un nombre variable de paramètres, de 10 millions à 10 milliards, tous entraînés sur les ensembles de données les plus volumineux disponibles dans les secteurs respectifs, y compris ImageNet21K et celui de Google JFT-300M.

Les résultats, selon l'article, montrent que diversité des données doit être considéré comme un axe supplémentaire lors d'une tentative de "mise à l'échelle" des données, des paramètres du modèle et du temps de calcul. Dans l'état actuel des choses, la forte concentration des ressources de formation (et l'attention des chercheurs) sur la section en amont d'un pipeline d'IA fait exploser efficacement les applications en aval avec une avalanche de paramètres jusqu'à un point de «saturation», réduisant la capacité des algorithmes déployés à naviguer à travers des fonctionnalités et effectuer des transformations d'inférence ou d'effet.

Le papier conclut :

« Grâce à une étude approfondie, nous établissons que lorsque nous améliorons les performances de la tâche en amont, soit par une mise à l'échelle, soit par des choix hyperparamétriques et architecturaux, les performances des tâches en aval présentent un comportement saturant. En outre, nous fournissons des preuves empiriques solides que, contrairement au récit courant, la mise à l'échelle ne conduit pas à une solution unique pour tous.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai