Intelligence artificielle

Gemma : Google apporte des capacités avancées d'IA grâce à l'Open Source

Publié le

il y a des mois 2

29 février 2024

Le domaine de l’intelligence artificielle (IA) a connu d’immenses progrès ces dernières années, en grande partie grâce aux progrès de l'apprentissage en profondeur ainsi que le traitement du langage naturel (PNL). Au premier rang de ces avancées se trouvent grands modèles de langage (LLM) – Systèmes d’IA formés sur d’énormes quantités de données textuelles qui peuvent générer du texte de type humain et s’engager dans des tâches conversationnelles.

Des LLM comme PaLM de Google, Claude d'Anthropic et Gopher de DeepMind ont démontré des capacités remarquables, du codage au raisonnement de bon sens. Cependant, la plupart de ces modèles n’ont pas été publiés ouvertement, ce qui limite leur accès à la recherche, au développement et aux applications bénéfiques.

Cela a changé avec le récent open source de Gemma – une famille de LLM de DeepMind de Google basés sur leurs puissants modèles propriétaires Gemini. Dans cet article de blog, nous plongerons dans Gemma, en analysant son architecture, son processus de formation, ses performances et sa version responsable.

Présentation de Gemma

En février 2023, DeepMind open source deux tailles de modèles Gemma : une version à 2 milliards de paramètres optimisée pour le déploiement sur appareil et une version plus grande à 7 milliards de paramètres conçue pour l'utilisation du GPU/TPU.

Gemma exploite une architecture basée sur des transformateurs et une méthodologie de formation similaires aux principaux modèles Gemini de DeepMind. Il a été formé sur jusqu'à 6 XNUMX milliards de jetons de texte provenant de documents Web, de mathématiques et de code.

DeepMind a publié à la fois des points de contrôle bruts pré-entraînés de Gemma, ainsi que des versions affinées avec un apprentissage supervisé et un retour humain pour des capacités améliorées dans des domaines tels que le dialogue, le suivi des instructions et le codage.

Premiers pas avec Gemma

La version ouverte de Gemma rend ses capacités avancées d'IA accessibles aux développeurs, aux chercheurs et aux passionnés. Voici un guide rapide pour commencer :

Déploiement indépendant de la plate-forme

L’un des principaux atouts de Gemma est sa flexibilité : vous pouvez l’exécuter sur des CPU, des GPU ou des TPU. Pour le processeur, utilisez TensorFlow Lite ou HuggingFace Transformers. Pour des performances accélérées sur GPU/TPU, utilisez TensorFlow. Les services cloud comme Vertex AI de Google Cloud offrent également une mise à l'échelle transparente.

Accéder aux modèles pré-entraînés

Gemma est disponible en différentes variantes pré-entraînées en fonction de vos besoins. Les modèles 2B et 7B offrent de fortes capacités génératives prêtes à l'emploi. Pour un réglage personnalisé, les modèles 2B-FT et 7B-FT sont des points de départ idéaux.

Créez des applications passionnantes

Vous pouvez créer une gamme diversifiée d'applications avec Gemma, telles que la génération d'histoires, la traduction linguistique, la réponse aux questions et la production de contenu créatif. La clé est de tirer parti des atouts de Gemma en affinant vos propres ensembles de données.

Architecture

Gemma utilise une architecture de transformateur uniquement décodeur, s'appuyant sur des avancées telles que l'attention multi-requêtes et l'intégration positionnelle rotative :

Transformateurs: Introduite en 2017, l’architecture des transformateurs basée uniquement sur des mécanismes d’attention est devenue omniprésente en PNL. Gemma hérite de la capacité du transformateur à modéliser des dépendances à longue portée dans le texte.
Décodeur uniquement : Gemma utilise uniquement une pile de décodeur de transformateur, contrairement aux modèles d'encodeur-décodeur comme BART ou T5. Cela offre de solides capacités génératives pour des tâches telles que la génération de texte.
Attention multi-requêtes : Gemma utilise l'attention multi-requêtes dans son modèle plus large, permettant à chaque responsable d'attention de traiter plusieurs requêtes en parallèle pour une inférence plus rapide.
Intégrations positionnelles rotatives : Gemma représente les informations de position en utilisant des intégrations rotatives au lieu d'encodages de position absolue. Cette technique réduit la taille du modèle tout en conservant les informations de position.

L'utilisation de techniques telles que l'attention multi-requêtes et les intégrations positionnelles rotatives permettent aux modèles Gemma d'atteindre un compromis optimal entre performances, vitesse d'inférence et taille du modèle.

Processus de données et de formation

Gemma a été formée sur jusqu'à 6 XNUMX milliards de jetons de données textuelles, principalement en anglais. Cela comprenait des documents Web, du texte mathématique et du code source. DeepMind a investi des efforts considérables dans le filtrage des données, en supprimant les contenus toxiques ou nuisibles à l'aide de classificateurs et d'heuristiques.

La formation a été réalisée à l'aide de l'infrastructure TPUv5 de Google, avec jusqu'à 4096 7 TPU utilisés pour former Gemma-XNUMXB. Des techniques efficaces de parallélisme des modèles et des données ont permis de former les modèles massifs avec du matériel standard.

Une formation par étapes a été utilisée, ajustant continuellement la distribution des données pour se concentrer sur un texte pertinent et de haute qualité. Les dernières étapes de mise au point ont utilisé un mélange d'exemples de suivi d'instructions générés par l'homme et synthétiques pour améliorer les capacités.

Performance du modèle

DeepMind a rigoureusement évalué les modèles Gemma sur un large éventail de plus de 25 critères couvrant la réponse aux questions, le raisonnement, les mathématiques, le codage, le bon sens et les capacités de dialogue.

Gemma obtient des résultats de pointe par rapport à des modèles open source de taille similaire dans la majorité des benchmarks. Quelques faits marquants :

L'univers social: Gemma excelle dans les tests de raisonnement mathématique comme GSM8K et MATH, surpassant de plus de 10 points les modèles comme Codex et Claude d'Anthropic.
Codage: Gemma égale ou dépasse les performances du Codex sur des benchmarks de programmation comme MBPP, bien qu'elle n'ait pas été spécifiquement formée au code.
Dialogue: Gemma démontre une forte capacité de conversation avec un taux de victoire de 51.7 % par rapport au Mistral-7B d'Anthropic lors des tests de préférence humaine.
Raisonnement: Sur les tâches nécessitant une inférence comme ARC et Winogrande, Gemma surpasse les autres modèles 7B de 5 à 10 points.

La polyvalence de Gemma dans toutes les disciplines démontre ses solides capacités de renseignement général. Bien que des écarts subsistent par rapport aux performances au niveau humain, Gemma représente un pas en avant dans le domaine de la PNL open source.

Sécurité et responsabilité

La publication des pondérations open source des grands modèles introduit des défis liés à une mauvaise utilisation intentionnelle et aux biais inhérents aux modèles. DeepMind a pris des mesures pour atténuer les risques :

Filtrage des données : Les textes potentiellement toxiques, illégaux ou biaisés ont été supprimés des données d'entraînement à l'aide de classificateurs et d'heuristiques.
Evaluations: Gemma a été testée sur plus de 30 critères sélectionnés pour évaluer la sécurité, l'équité et la robustesse. Il correspondait ou dépassait les autres modèles.
Réglage fin: L'ajustement du modèle s'est concentré sur l'amélioration des capacités de sécurité telles que le filtrage des informations et les comportements de couverture/refus appropriés.
Conditions d'utilisation: Les conditions d'utilisation interdisent les applications offensantes, illégales ou contraires à l'éthique des modèles Gemma. Cependant, l’application reste difficile.
Cartes modèles : Des fiches détaillant les capacités, les limites et les biais du modèle ont été publiées pour promouvoir la transparence.

Bien que les risques liés à l'open source existent, DeepMind a déterminé que la sortie de Gemma offre des avantages sociétaux nets basés sur son profil de sécurité et la facilitation de la recherche. Toutefois, une surveillance vigilante des dommages potentiels restera essentielle.

Permettre la prochaine vague d’innovation en IA

La sortie de Gemma en tant que famille de modèles open source devrait permettre de débloquer des progrès au sein de la communauté de l'IA :

Accessibilité: Gemma réduit les obstacles que les organisations doivent surmonter grâce à la PNL de pointe, qui étaient auparavant confrontées à des coûts de calcul/données élevés pour former leurs propres LLM.
Nouvelles applications: Grâce à l'open source de points de contrôle pré-entraînés et réglés, DeepMind permet de développer plus facilement des applications utiles dans des domaines tels que l'éducation, la science et l'accessibilité.
Personnalisation: Les développeurs peuvent personnaliser davantage Gemma pour des applications spécifiques à un secteur ou à un domaine grâce à une formation continue sur les données propriétaires.
Recherche: Les modèles ouverts comme Gemma favorisent une plus grande transparence et un plus grand audit des systèmes PNL actuels, éclairant ainsi les orientations de recherche futures.
Innovation: La disponibilité de modèles de base solides comme Gemma accélérera les progrès dans des domaines tels que l'atténuation des biais, la factualité et la sécurité de l'IA.

En fournissant à tous les capacités de Gemma grâce à l'open source, DeepMind espère stimuler le développement responsable de l'IA pour le bien social.

La route à suivre

À chaque avancée de l’IA, nous nous rapprochons de modèles qui rivalisent ou dépassent l’intelligence humaine dans tous les domaines. Des systèmes comme Gemma soulignent à quel point les progrès rapides des modèles auto-supervisés débloquent des capacités cognitives de plus en plus avancées.

Il reste cependant du travail à faire pour améliorer la fiabilité, l’interprétabilité et la contrôlabilité de l’IA – domaines dans lesquels l’intelligence humaine règne toujours en maître. Des domaines comme les mathématiques mettent en évidence ces écarts persistants, Gemma obtenant un score de 64 % au MMLU, contre 89 % de performance humaine estimée.

Combler ces lacunes tout en garantissant la sécurité et l’éthique de systèmes d’IA toujours plus performants sera le défi central des années à venir. Il sera essentiel de trouver le bon équilibre entre ouverture et prudence, car DeepMind vise à démocratiser l’accès aux avantages de l’IA tout en gérant les risques émergents.

Les initiatives visant à promouvoir la sécurité de l'IA – comme l'ANC de Dario Amodei, l'équipe Ethics & Society de DeepMind et Constitutional AI d'Anthropic – témoignent d'une reconnaissance croissante de ce besoin de nuance. Des progrès significatifs nécessiteront un dialogue ouvert et fondé sur des données probantes entre les chercheurs, les développeurs, les décideurs politiques et le public.

Si elle est parcourue de manière responsable, Gemma ne représente pas le sommet de l'IA, mais un camp de base pour la prochaine génération de chercheurs en IA qui suivent les traces de DeepMind vers une intelligence artificielle générale juste et bénéfique.

Conclusion

La sortie des modèles Gemma par DeepMind marque une nouvelle ère pour l'IA open source – une ère qui transcende les critères étroits pour devenir des capacités de renseignement généralisées. Testé de manière approfondie pour la sécurité et largement accessible, Gemma établit une nouvelle norme en matière d'open source responsable dans le domaine de l'IA.

Animé par un esprit de compétition tempéré par des valeurs coopératives, le partage d’avancées comme Gemma fait lever tous les bateaux de l’écosystème de l’IA. L’ensemble de la communauté a désormais accès à une famille LLM polyvalente pour piloter ou soutenir ses initiatives.

Même si des risques demeurent, la diligence technique et éthique de DeepMind donne l'assurance que les avantages de Gemma l'emportent sur ses inconvénients potentiels. À mesure que les capacités de l’IA deviennent de plus en plus avancées, il sera essentiel de maintenir cette nuance entre ouverture et prudence.

Gemma nous rapproche d’une IA qui profite à toute l’humanité. Mais de nombreux grands défis nous attendent encore sur la voie d’une intelligence artificielle générale bienveillante. Si les chercheurs en IA, les développeurs et la société dans son ensemble parviennent à maintenir des progrès collaboratifs, Gemma pourrait un jour être considérée comme un camp de base historique plutôt que comme le sommet final.

Rubriques connexes:DeepMind Gemme LLM

L'IA dans le marketing : aperçus de la conférence MWC

Ne manquez pas

Les vulnérabilités et les menaces de sécurité auxquelles sont confrontés les grands modèles de langage

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.