Intelligence artificielle

Pouvez-vous créer de grands modèles de langage comme ChatGPT à moitié prix ?

Publié le

il y a des mois 12

11 mai 2023

grands modèles linguistiques (LLM) comme GPT-3 et ChatGPT ont révolutionné l'IA en offrant des capacités de compréhension du langage naturel et de génération de contenu. Mais leur développement a un prix élevé, limitant l'accessibilité et la poursuite des recherches. Les chercheurs estiment que la formation GPT-3 coûte à OpenAI environ 5 millions de dollars. Néanmoins, Microsoft a reconnu le potentiel et a investi 1 milliard de dollars dans 2019 et 10 milliard de dollars en 2023 dans l'entreprise GPT-3 et ChatGPT d'OpenAI.

Les LLM sont des modèles d'apprentissage automatique formés sur de nombreuses données textuelles pour les applications NLP. Ils sont basés sur une architecture de transformateur et utilisent des mécanismes d'attention pour les tâches de PNL telles que la réponse aux questions, la traduction automatique, l'analyse des sentiments, etc.

La question se pose : peut-on augmenter l'efficacité de ces grands modèles tout en réduisant simultanément le coût de calcul et le temps d'apprentissage ?

Plusieurs approches, comme Réseaux de neurones progressifs, Morphisme du réseau, parallélisme du modèle intra-couche, héritage des connaissances, etc., ont été développés pour réduire le coût de calcul de la formation des réseaux de neurones. Le roman LiGO (Opérateur de croissance linéaire) dont nous parlerons établit une nouvelle référence. Il réduit de moitié le coût de calcul de la formation des LLM.

Avant de discuter de cette technique, il est essentiel d'examiner les facteurs qui contribuent au prix élevé de la fabrication de LLM.

Coût de construction de grands modèles de langage

Les trois principales dépenses de développement des LLM sont les suivantes :

1. Ressources informatiques

La construction de LLM nécessite des ressources de calcul massives pour s'entraîner sur de grands ensembles de données. Ils doivent traiter des milliards de paramètres et apprendre des modèles complexes à partir de données textuelles massives.

Investissement dans du matériel spécialisé tel que des unités de traitement graphique (GPU) et des unités de traitement de tenseur (TPU) sont nécessaires pour créer et former des LLM afin d'obtenir des performances de pointe.

Par exemple, GPT-3 a été formé sur un supercalculateur avec 10000 100 GPU d'entreprise (H100 et A285,000) et XNUMX XNUMX cœurs de processeur.

2. Consommation d'énergie

Les ressources de calcul intensives nécessaires à la construction de LLM entraînent une consommation d'énergie importante. Par exemple, la formation de 175 milliards de paramètres GPT-3 a pris 14.8 jours en utilisant 10,000 100 GPU V3.55, ce qui équivaut à XNUMX millions d'heures GPU. Un tel niveau de consommation d'énergie a également des effets importants sur l'environnement.

3. Stockage et gestion des données

Les LLM sont formés sur de grands ensembles de données. Par exemple, GPT-3 a été formé sur un vaste corpus de textes données, y compris Common Crawl, WebText2, Books1, Books2 et Wikipedia, entre autres sources. Des investissements importants dans l'infrastructure sont nécessaires pour collecter, conserver et stocker ces ensembles de données.

De plus, le stockage en nuage est nécessaire pour le stockage des données et l'expertise humaine pour le prétraitement des données et le contrôle des versions. De plus, s'assurer que votre stratégie de données est conforme aux réglementations telles que le RGPD augmente également le coût.

Technique LiGO : Réduisez de moitié le coût de création de grands modèles de langage

LiGO (Linear Growth Operator) est une nouvelle technique développée par des chercheurs du MIT pour réduire de 50 % le coût de calcul de la formation des LLM. La méthode consiste à initialiser les poids de modèles plus grands à partir de ceux de modèles pré-formés plus petits, permettant une mise à l'échelle efficace des réseaux de neurones.

Image du journal : Apprendre à développer des modèles pré-entraînés pour une formation efficace des transformateurs

Yoon Kim, l'auteur principal de l'article, déclare :

"Il a été estimé que des modèles de formation à l'échelle de ce sur quoi ChatGPT est supposé fonctionner pourraient nécessiter des millions de dollars pour une seule exécution de formation. Pouvons-nous améliorer l'efficacité de ces méthodes de formation, afin que nous puissions toujours obtenir de bons modèles en moins de temps et pour moins d'argent ? Nous proposons de le faire en tirant parti de modèles de langage plus petits qui ont déjà été formés. »

Cette méthode conserve les avantages de performances des modèles plus grands avec un coût de calcul et un temps de formation réduits par rapport à la formation d'un grand modèle à partir de zéro. LiGO utilise un opérateur de croissance linéaire basé sur les données qui combine des opérateurs de profondeur et de largeur pour des performances optimales.

L'article a utilisé divers ensembles de données pour mener des expériences textuelles, y compris le corpus anglais de Wikipedia pour la formation des modèles BERT et RoBERTa et l'ensemble de données C4 pour la formation GPT2.

L'expérimentation de la technique LiGO comprenait la croissance de BERT-Small à BERT-Base, de BERT-Base à BERT-Large, de RoBERTaSmall à RoBERTa-Base, de GPT2-Base à GPT2-Medium et de CaiT-XS à CaiT-S.

Les chercheurs ont comparé leur approche avec plusieurs autres lignes de base, y compris la formation à partir de zéro, la formation progressive, bert2BERT et KI.

La technique LiGO offrait 44.7 % d'économies en FLOP (opérations en virgule flottante par seconde) et 40.7 % d'économies en temps de mur par rapport à la formation BERT-Base à partir de zéro en réutilisant le modèle BERT-Small. L'opérateur de croissance LiGO surpasse StackBERT, MSLT, bert2BERT et KI dans une formation efficace.

Avantages de l'utilisation d'une technique d'optimisation de la formation comme LiGO

LiGO est une méthode de formation de réseau de neurones efficace qui présente divers avantages répertoriés comme suit :

1. Formation plus rapide

Comme indiqué précédemment, un entraînement plus rapide est le principal avantage de la technique LiGO. Il forme les LLM en deux fois moins de temps, ce qui augmente la productivité et réduit les coûts.

2. Économe en ressources

LiGO est économe en ressources car il minimise le temps de mur et les FLOP, ce qui conduit à une approche plus rentable et respectueuse de l'environnement pour la formation de grands modèles de transformateurs.

3. Généralisation

La technique LiGO a amélioré les performances des transformateurs de langage et de vision, suggérant qu'il s'agit d'une technique généralisable pouvant être appliquée à diverses tâches.

La création de produits d'IA commerciaux n'est qu'une facette des dépenses globales associées aux systèmes d'IA. Une autre composante importante des coûts provient des opérations quotidiennes. Par exemple, cela coûte à OpenAI environ $700,000 tous les jours pour répondre aux requêtes via ChatGPT. Les chercheurs devraient continuer à explorer des approches qui rendent les LLM rentables pendant la formation et plus accessibles pendant l'exécution.

Pour plus de contenu lié à l'IA, visitez unir.ai.