Intelligence artificielle

L’IA multimodale de Google, Gemini – Une plongée technique

Published December 11, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Sundar Pichai, le PDG de Google, ainsi que Demis Hassabis de Google DeepMind, ont présenté Gemini en décembre 2023. Ce nouveau grand modèle de langage est intégré à travers l’ensemble des produits de Google, offrant des améliorations qui se propagent aux services et outils utilisés par des millions de personnes.

Gemini, l’IA multimodale avancée de Google, est issue des efforts collaboratifs des laboratoires DeepMind et Brain AI unifiés. Gemini s’appuie sur les épaules de ses prédécesseurs, promettant de livrer un ensemble d’applications plus interconnecté et intelligent.

L’annonce de Google Gemini, qui fait suite de près à la sortie de Bard, Duet AI et du LLM PaLM 2, marque une intention claire de la part de Google de ne pas seulement concurrencer mais de mener la révolution de l’IA.

Contrairement à toute notion d’hiver de l’IA, le lancement de Gemini suggère un printemps de l’IA florissant, regorgeant de potentiel et de croissance. Alors que nous réfléchissons à un an depuis l’émergence de ChatGPT, qui était en soi un moment révolutionnaire pour l’IA, la démarche de Google indique que l’expansion de l’industrie est loin d’être terminée ; en fait, elle pourrait tout juste commencer à accélérer.

Qu’est-ce que Gemini ?

Le modèle Gemini de Google est capable de traiter divers types de données telles que du texte, des images, de l’audio et de la vidéo. Il existe en trois versions — Ultra, Pro et Nano — chacune conçue pour des applications spécifiques, allant de la raisonnement complexe à l’utilisation sur appareil. Ultra excelle dans les tâches multifacettes et sera disponible sur Bard Advanced, tandis que Pro offre un équilibre entre les performances et l’efficacité des ressources, déjà intégré à Bard pour les invites de texte. Nano, optimisé pour le déploiement sur appareil, est disponible en deux tailles et présente des optimisations matérielles comme la quantification 4 bits pour une utilisation hors ligne sur des appareils tels que le Pixel 8 Pro.

L’architecture de Gemini est unique en sa capacité native de sortie multimodale, utilisant des jetons d’image discrets pour la génération d’images et intégrant des fonctionnalités audio du Universal Speech Model pour une compréhension audio nuancée. Sa capacité à traiter des données vidéo comme des images séquentielles, entrecoupées de texte ou d’invites audio, illustre sa polyvalence.

Gemini prend en charge les séquences de texte, d’image, d’audio et de vidéo en tant qu’entrées

Accéder à Gemini

Gemini 1.0 est déployé à travers l’écosystème de Google, y compris Bard, qui bénéficie maintenant des capacités affinées de Gemini Pro. Google a également intégré Gemini à ses services de Recherche, de Publicité et de Duet, améliorant l’expérience utilisateur avec des réponses plus rapides et plus précises.

Pour ceux qui souhaitent exploiter les capacités de Gemini, Google AI Studio et Google Cloud Vertex offrent l’accès à Gemini Pro, le dernier offrant une personnalisation et des fonctionnalités de sécurité plus poussées.

Pour expérimenter les capacités améliorées de Bard alimenté par Gemini Pro, les utilisateurs peuvent suivre les étapes suivantes :

Naviguer vers Bard : Ouvrez votre navigateur Web préféré et allez sur le site Web de Bard.
Connexion sécurisée : Accédez au service en vous connectant avec votre compte Google, assurant ainsi une expérience fluide et sécurisée.
Chat interactif : Vous pouvez maintenant utiliser Bard, où les fonctionnalités avancées de Gemini Pro peuvent être sélectionnées.

Puissance de la multimodalité :

Au cœur de Gemini se trouve une architecture basée sur des transformateurs, similaire à celles utilisées dans les modèles NLP réussis comme GPT-3. Cependant, l’originalité de Gemini réside dans sa capacité à traiter et à intégrer des informations provenant de multiples modalités, y compris le texte, les images et le code. Cela est réalisé grâce à une technique novatrice appelée attention cross-modale, qui permet au modèle d’apprendre les relations et les dépendances entre les différents types de données.

Voici une ventilation des composants clés de Gemini :

Encodeur multimodal : Ce module traite les données d’entrée de chaque modalité (par exemple, texte, image) de manière indépendante, en extrayant les fonctionnalités pertinentes et en générant des représentations individuelles.
Réseau d’attention cross-modale : Ce réseau est au cœur de Gemini. Il permet au modèle d’apprendre les relations et les dépendances entre les différentes représentations, leur permettant de « communiquer » et d’enrichir leur compréhension.
Décodeur multimodal : Ce module utilise les représentations enrichies générées par le réseau d’attention cross-modale pour effectuer diverses tâches, telles que la génération de légendes d’images, la génération de texte en image et la génération de code.

Le modèle Gemini ne se limite pas à la compréhension du texte ou des images — il s’agit d’intégrer différents types d’informations d’une manière beaucoup plus proche de la façon dont nous, en tant qu’humains, percevons le monde. Par exemple, Gemini peut examiner une séquence d’images et déterminer l’ordre logique ou spatial des objets à l’intérieur. Il peut également analyser les caractéristiques de conception des objets pour porter des jugements, tels que savoir lequel de deux voitures a une forme plus aérodynamique.

Mais les talents de Gemini vont au-delà de la simple compréhension visuelle. Il peut transformer un ensemble d’instructions en code, créant ainsi des outils pratiques comme un minuteur qui ne fonctionne pas seulement comme indiqué mais inclut également des éléments créatifs, tels que des émojis de motivation, pour améliorer l’interaction utilisateur. Cela indique une capacité à gérer des tâches qui nécessitent un mélange de créativité et de fonctionnalité — des compétences souvent considérées comme distinctement humaines.

Capacités de Gemini : Raisonnement spatial (Source)

Les capacités de Gemini s’étendent à l’exécution de tâches de programmation(Source)

La conception sophistiquée de Gemini repose sur une riche histoire de recherche sur les réseaux de neurones et tire parti de la technologie TPU de pointe de Google pour la formation. Gemini Ultra, en particulier, a établi de nouvelles références dans divers domaines de l’IA, montrant des augmentations de performance remarquables dans les tâches de raisonnement multimodal.

Avec sa capacité à analyser et à comprendre des données complexes, Gemini offre des solutions pour des applications du monde réel, en particulier dans l’éducation. Il peut analyser et corriger des solutions de problèmes, comme en physique, en comprenant des notes manuscrites et en fournissant une mise en page mathématique précise. De telles capacités suggèrent un avenir où l’IA aide dans les environnements éducatifs, offrant aux étudiants et aux éducateurs des outils avancés pour l’apprentissage et la résolution de problèmes.

Gemini a été utilisé pour créer des agents comme AlphaCode 2, qui excelle dans les problèmes de programmation compétitifs. Cela met en évidence le potentiel de Gemini pour agir comme une IA généraliste, capable de gérer des problèmes complexes et multétapes.

Gemini Nano apporte le pouvoir de l’IA aux appareils du quotidien, conservant des capacités impressionnantes dans des tâches telles que la synthèse et la compréhension de la lecture, ainsi que la programmation et les défis liés aux STEM. Ces petits modèles sont affinés pour offrir des fonctionnalités d’IA de haute qualité sur des appareils à faible mémoire, rendant l’IA avancée plus accessible que jamais.

Le développement de Gemini a impliqué des innovations dans les algorithmes de formation et les infrastructures, en utilisant les dernières TPUs de Google. Cela a permis un scaling efficace et des processus de formation robustes, garantissant que même les plus petits modèles offrent des performances exceptionnelles.

Le jeu de données de formation pour Gemini est aussi diversifié que ses capacités, comprenant des documents Web, des livres, du code, des images, de l’audio et des vidéos. Ce jeu de données multimodal et multilingue garantit que les modèles Gemini peuvent comprendre et traiter une large variété de types de contenu de manière efficace.

Gemini et GPT-4

Malgré l’émergence d’autres modèles, la question sur toutes les lèvres est de savoir comment l’IA Gemini de Google se compare à GPT-4 d’OpenAI, la référence de l’industrie pour les nouveaux LLM. Les données de Google suggèrent que même si GPT-4 peut exceller dans les tâches de raisonnement basé sur le bon sens, Gemini Ultra a l’avantage dans presque tous les autres domaines.

Gemini VS GPT-4

Le tableau de référence ci-dessus montre les performances impressionnantes de l’IA Gemini de Google à travers une variété de tâches. Notamment, Gemini Ultra a réalisé des résultats remarquables dans le référence MMLU avec une précision de 90,04 %, indiquant sa compréhension supérieure dans les questions à choix multiple sur 57 sujets.

Dans le GSM8K, qui évalue les questions de mathématiques du primaire, Gemini Ultra obtient un score de 94,4 %, mettant en évidence ses compétences avancées en traitement arithmétique. Dans les références de codage, Gemini Ultra atteint un score de 74,4 % dans HumanEval pour la génération de code Python, indiquant sa forte compréhension du langage de programmation.

Le référence DROP, qui teste la compréhension de la lecture, voit Gemini Ultra à la tête avec un score de 82,4 %. Pendant ce temps, dans un test de raisonnement basé sur le bon sens, HellaSwag, Gemini Ultra se comporte de manière admirable, même s’il ne dépasse pas les références extrêmement élevées établies par GPT-4.

Conclusion

L’architecture unique de Gemini, alimentée par la technologie de pointe de Google, la positionne comme un acteur formidable dans l’arène de l’IA, remettant en question les références existantes établies par des modèles comme GPT-4. Ses versions — Ultra, Pro et Nano — répondent chacune à des besoins spécifiques, allant des tâches de raisonnement complexe aux applications efficaces sur appareil, mettant en évidence l’engagement de Google à rendre l’IA avancée accessible sur diverses plateformes et appareils.

L’intégration de Gemini dans l’écosystème de Google, de Bard à Google Cloud Vertex, met en évidence son potentiel pour améliorer les expériences utilisateur à travers un large éventail de services. Il promet non seulement d’affiner les applications existantes mais également d’ouvrir de nouvelles voies pour des solutions impulsées par l’IA, que ce soit dans l’assistance personnalisée, les entreprises créatives ou l’analyse commerciale.

Alors que nous regardons vers l’avenir, les progrès continus dans les modèles d’IA comme Gemini soulignent l’importance de la recherche et du développement en cours. Les défis de la formation de tels modèles sophistiqués et de garantir leur utilisation éthique et responsable restent au premier plan de la discussion.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI

L’IA multimodale de Google, Gemini – Une plongée technique

Qu’est-ce que Gemini ?

Conclusion

You may like