Intelligence artificielle

Gemma : Google apporte des capacités avancées d’IA grâce à l’open source

mm
Google Open Source LLM Gemma

Le domaine de l’intelligence artificielle (IA) a connu des progrès immenses ces dernières années, en grande partie grâce aux avancées dans l’apprentissage profond et le traitement automatique des langues (NLP). À la pointe de ces avancées se trouvent les modèles de langage à grande échelle (LLM) – des systèmes d’IA formés sur des quantités massives de données textuelles qui peuvent générer du texte similaire à celui des humains et engager des tâches de conversation.

Les LLM comme PaLM de Google, Claude d’Anthropic et Gopher de DeepMind ont démontré des capacités remarquables, allant de la programmation à la raison commune. Cependant, la plupart de ces modèles n’ont pas été ouverts au public, limitant leur accès pour la recherche, le développement et les applications bénéfiques.

Cela a changé avec la récente ouverture de Gemma – une famille de LLM de Google’s DeepMind basée sur leurs puissants modèles propriétaires Gemini. Dans cet article de blog, nous allons plonger dans Gemma, en analysant son architecture, son processus de formation, ses performances et sa publication responsable.

Présentation de Gemma

En février 2023, DeepMind a ouvert deux tailles de modèles Gemma – une version de 2 milliards de paramètres optimisée pour le déploiement sur appareil, et une version plus grande de 7 milliards de paramètres conçue pour une utilisation sur GPU/TPU.

Gemma utilise une architecture basée sur des transformateurs similaires et une méthodologie de formation à celle des modèles Gemini de DeepMind. Il a été formé sur jusqu’à 6 billions de jetons de texte à partir de documents Web, de mathématiques et de code.

DeepMind a publié les points de contrôle pré-formés bruts de Gemma, ainsi que des versions affinées avec un apprentissage supervisé et une rétroaction humaine pour améliorer les capacités dans des domaines tels que le dialogue, le suivi des instructions et la programmation.

Commencer avec Gemma

La publication ouverte de Gemma rend ses capacités d’IA avancées accessibles aux développeurs, aux chercheurs et aux passionnés. Voici un guide rapide pour commencer :

Déploiement agnostique de la plate-forme

Une force clé de Gemma est sa flexibilité – vous pouvez l’exécuter sur des CPU, des GPU ou des TPU. Pour le CPU, utilisez TensorFlow Lite ou HuggingFace Transformers. Pour des performances accélérées sur GPU/TPU, utilisez TensorFlow. Les services cloud tels que Vertex AI de Google Cloud offrent également une mise à l’échelle transparente.

Accéder aux modèles pré-formés

Gemma est disponible dans différentes variantes pré-formées en fonction de vos besoins. Les modèles 2B et 7B offrent de solides capacités de génération hors de la boîte. Pour une affinage personnalisé, les modèles 2B-FT et 7B-FT sont des points de départ idéaux.

Créer des applications excitantes

Vous pouvez créer une gamme diversifiée d’applications avec Gemma, comme la génération d’histoires, la traduction de langues, la réponse à des questions et la production de contenu créatif. La clé est de tirer parti des forces de Gemma grâce à une affinage sur vos propres ensembles de données.

Architecture

Gemma utilise une architecture de transformateur décodeur-seul, basée sur des avancées comme l’attention multi-requêtes et les embeddings positionnels rotatifs :

  • Transformateurs : introduits en 2017, l’architecture de transformateur basée uniquement sur les mécanismes d’attention est devenue omniprésente dans le NLP. Gemma hérite de la capacité du transformateur à modéliser les dépendances à longue portée dans le texte.
  • Décodeur-seul : Gemma n’utilise qu’une pile de décodeurs de transformateur, contrairement aux modèles encodeur-décodeur comme BART ou T5. Cela fournit de solides capacités de génération pour des tâches comme la génération de texte.
  • Attention multi-requêtes : Gemma utilise une attention multi-requêtes dans son modèle plus grand, permettant à chaque tête d’attention de traiter plusieurs requêtes en parallèle pour une inférence plus rapide.
  • Embeddings positionnels rotatifs : Gemma représente les informations de position à l’aide d’embeddings rotatifs au lieu de codages de position absolus. Cette technique réduit la taille du modèle tout en conservant les informations de position.

L’utilisation de techniques comme l’attention multi-requêtes et les embeddings positionnels rotatifs permet aux modèles Gemma de trouver un compromis optimal entre les performances, la vitesse d’inférence et la taille du modèle.

Données et processus de formation

Gemma a été formé sur jusqu’à 6 billions de jetons de données textuelles, principalement en anglais. Cela comprenait des documents Web, des textes mathématiques et du code. DeepMind a investi des efforts importants dans le filtrage des données, en supprimant le contenu toxique ou nuisible à l’aide de classificateurs et d’heuristiques.

La formation a été effectuée à l’aide de l’infrastructure TPUv5 de Google, avec jusqu’à 4096 TPU utilisés pour former Gemma-7B. Des techniques de parallélisme de modèle et de données efficaces ont permis de former les modèles massifs avec du matériel standard.

Une formation échelonnée a été utilisée, en ajustant en continu la distribution des données pour se concentrer sur du texte de haute qualité et pertinent. Les étapes de fine-tuning finale ont utilisé un mélange d’exemples d’instruction suivie générés par l’homme et synthétiques pour améliorer les capacités.

Performances du modèle

DeepMind a évalué rigoureusement les modèles Gemma sur un large ensemble de plus de 25 références couvrant la réponse à des questions, la raison, les mathématiques, la programmation, le sens commun et les capacités de dialogue.

Gemma atteint des résultats à la pointe de la technologie par rapport aux modèles open source de taille similaire sur la majorité des références. Certains points forts :

  • Mathématiques : Gemma excelle dans les tests de raisonnement mathématique comme GSM8K et MATH, surpassant les modèles comme Codex et Claude d’Anthropic de plus de 10 points.
  • Programmation : Gemma égale ou dépasse les performances de Codex sur les références de programmation comme MBPP, malgré le fait qu’il n’ait pas été formé spécifiquement sur du code.
  • Dialogue : Gemma démontre une forte capacité de conversation avec un taux de victoire de 51,7 % sur Mistral-7B d’Anthropic lors des tests de préférence humaine.
  • Raisonnement : Sur les tâches nécessitant une inférence comme ARC et Winogrande, Gemma dépasse les autres modèles de 7 milliards de paramètres de 5 à 10 points.

La polyvalence de Gemma à travers les disciplines démontre ses solides capacités d’intelligence générale. Bien que des écarts avec les performances humaines persistent, Gemma représente un bond en avant dans le NLP open source.

Sécurité et responsabilité

La publication de poids de modèles de grande taille en open source introduit des défis en termes d’utilisation abusive intentionnelle et de biais inhérents aux modèles. DeepMind a pris des mesures pour atténuer les risques :

  • Filtrage des données : le texte potentiellement toxique, illégal ou biaisé a été supprimé des données de formation à l’aide de classificateurs et d’heuristiques.
  • Évaluations : Gemma a été testé sur 30 références ou plus conçues pour évaluer la sécurité, l’équité et la robustesse. Il a égalé ou dépassé les autres modèles.
  • Affinage : l’affinage du modèle s’est concentré sur l’amélioration des capacités de sécurité comme le filtrage d’informations et les comportements de refus/hésitation appropriés.
  • Conditions d’utilisation : les conditions d’utilisation interdisent les applications offensantes, illégales ou contraires à l’éthique des modèles Gemma. Cependant, l’application reste un défi.
  • Carte de modèle : des cartes détaillant les capacités du modèle, les limites et les biais ont été publiées pour promouvoir la transparence.

Bien que des risques existent lors de la publication en open source, DeepMind a déterminé que la publication de Gemma offre des avantages sociétaux nets en fonction de son profil de sécurité et de son potentiel de recherche. Cependant, une surveillance vigilante des dommages potentiels restera cruciale.

Permettre la prochaine vague d’innovation en IA

La publication de Gemma en tant que famille de modèles open source est susceptible de débloquer les progrès à travers la communauté IA :

  • Accessibilité : Gemma réduit les barrières pour les organisations qui souhaitent construire avec des capacités NLP de pointe, qui étaient précédemment confrontées à des coûts de calcul et de données élevés pour former leurs propres LLM.
  • Nouvelles applications : en publiant des points de contrôle pré-formés et affinés, DeepMind permet un développement plus facile d’applications bénéfiques dans des domaines tels que l’éducation, la science et l’accessibilité.
  • Personnalisation : les développeurs peuvent personnaliser davantage Gemma pour des applications spécifiques à l’industrie ou au domaine grâce à une formation continue sur des données propriétaires.
  • Recherche : les modèles open source comme Gemma favorisent une plus grande transparence et une vérification des systèmes NLP actuels, éclairant les directions de recherche futures.
  • Innovation : la disponibilité de modèles de référence solides comme Gemma accélérera les progrès dans des domaines tels que la mitigation des biais, la véracité et la sécurité de l’IA.

En fournissant les capacités de Gemma à tous grâce à l’open source, DeepMind espère stimuler le développement responsable de l’IA pour le bien social.

La voie à suivre

À chaque bond en avant de l’IA, nous nous rapprochons de modèles qui rivalisent ou dépassent l’intelligence humaine dans tous les domaines. Des systèmes comme Gemma soulignent comment les progrès rapides dans les modèles auto-supervisés débloquent des capacités cognitives de plus en plus avancées.

Cependant, il reste du travail pour améliorer la fiabilité, l’interprétabilité et la contrôlabilité de l’IA – des domaines où l’intelligence humaine règne encore en maître. Des domaines comme les mathématiques mettent en évidence ces écarts persistants, Gemma obtenant 64 % sur MMLU par rapport à une performance humaine estimée à 89 %.

Combler ces écarts tout en garantissant la sécurité et l’éthique de systèmes d’IA de plus en plus capables sera le défi central dans les années à venir. Trouver un équilibre entre ouverture et prudence sera crucial, dans la mesure où DeepMind vise à démocratiser l’accès aux avantages de l’IA tout en gérant les risques émergents.

Des initiatives pour promouvoir la sécurité de l’IA – comme ANC de Dario Amodei, l’équipe Éthique et société de DeepMind et l’IA constitutionnelle d’Anthropic – signalent une reconnaissance croissante de ce besoin de nuance. Des progrès significatifs nécessiteront un dialogue ouvert et fondé sur des preuves entre les chercheurs, les développeurs, les décideurs politiques et le public.

Si navigué de manière responsable, Gemma représente non pas le sommet de l’IA, mais un camp de base pour la prochaine génération de chercheurs en IA qui suivent les pas de DeepMind vers une intelligence artificielle générale équitable et bénéfique.

Conclusion

La publication de Gemma par DeepMind marque une nouvelle ère pour l’IA open source – une ère qui transcende les références étroites pour atteindre des capacités d’intelligence générale. Testé de manière approfondie pour la sécurité et largement accessible, Gemma définit une nouvelle norme pour la publication responsable en open source dans l’IA.

Animé par un esprit de compétition tempéré par des valeurs de coopération, le partage de percées comme Gemma fait monter tous les bateaux dans l’écosystème de l’IA. La communauté entière a maintenant accès à une famille de LLM polyvalente pour stimuler ou soutenir leurs initiatives.

Bien que des risques persistent, la diligence technique et éthique de DeepMind offre la confiance que les avantages de Gemma l’emportent sur les dommages potentiels. À mesure que les capacités de l’IA deviennent de plus en plus avancées, maintenir cette nuance entre ouverture et prudence sera crucial.

Gemma nous rapproche d’une IA qui profite à l’humanité tout entière. Mais de nombreux défis majeurs attendent encore sur le chemin de l’intelligence artificielle générale bienveillante. Si les chercheurs en IA, les développeurs et la société dans son ensemble peuvent maintenir une progression collaborative, Gemma pourrait un jour être considéré comme un camp de base historique, plutôt que le sommet final.

J'ai passé les cinq dernières années à plonger dans le monde fascinant de l'apprentissage automatique et du deep learning. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un focus particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en profondeur.