AGI

Med-Gemini : Transformer l’intelligence artificielle médicale avec des modèles multimodaux de nouvelle génération

Publié le 10 juin 2024

Mis à jour le 21 mai 2026

Par

Dr. Tehseen Zia

L’intelligence artificielle (IA) a fait des vagues dans le domaine médical au cours des dernières années. Elle améliore la précision des diagnostics d’images médicales, aide à créer des traitements personnalisés grâce à l’analyse des données génomiques et accélère la découverte de médicaments en examinant les données biologiques. Pourtant, malgré ces progrès impressionnants, la plupart des applications d’IA aujourd’hui sont limitées à des tâches spécifiques utilisant un seul type de données, comme une tomographie par ordinateur ou des informations génétiques. Cette approche à modalité unique est très différente de la façon dont les médecins travaillent, en intégrant des données de diverses sources pour diagnostiquer les affections, prédire les résultats et créer des plans de traitement complets.

Pour vraiment soutenir les cliniciens, les chercheurs et les patients dans des tâches telles que la génération de rapports de radiologie, l’analyse d’images médicales et la prédiction de maladies à partir de données génomiques, l’IA doit gérer diverses tâches médicales en raisonnant sur des données multimodales complexes, notamment le texte, les images, les vidéos et les dossiers médicaux électroniques (DME). Cependant, la construction de ces systèmes d’IA médicaux multimodaux a été difficile en raison de la capacité limitée de l’IA à gérer divers types de données et de la rareté de jeux de données biomédicales complets.

Le besoin d’IA médicale multimodale

Les soins de santé forment un réseau complexe de sources de données interconnectées, des images médicales aux informations génétiques, que les professionnels de la santé utilisent pour comprendre et traiter les patients. Cependant, les systèmes d’IA traditionnels se concentrent souvent sur des tâches uniques avec des types de données uniques, limitant leur capacité à fournir une vue d’ensemble complète de l’état d’un patient. Ces systèmes d’IA unimodaux nécessitent de grandes quantités de données étiquetées, qui peuvent être coûteuses à obtenir, offrant une portée limitée de capacités et faisant face à des défis pour intégrer des informations de différentes sources.

L’IA multimodale peut surmonter les défis des systèmes d’IA médicaux existants en offrant une perspective holistique qui combine des informations de sources diverses, offrant une compréhension plus précise et plus complète de la santé d’un patient. Cette approche intégrée améliore la précision diagnostique en identifiant des modèles et des corrélations qui pourraient être manqués lors de l’analyse de chaque modalité de manière indépendante. De plus, l’IA multimodale favorise l’intégration des données, permettant aux professionnels de la santé d’accéder à une vue unifiée des informations sur les patients, ce qui favorise la collaboration et la prise de décision éclairée. Sa capacité d’adaptation et de flexibilité lui permettent d’apprendre à partir de divers types de données, de s’adapter à de nouveaux défis et d’évoluer avec les progrès médicaux.

Présentation de Med-Gemini

Les récents progrès dans les modèles d’IA multimodaux de grande taille ont déclenché un mouvement dans le développement de systèmes d’IA médicaux sophistiqués. À la tête de ce mouvement se trouvent Google et DeepMind, qui ont présenté leur modèle avancé, Med-Gemini. Ce modèle d’IA médicale multimodale a démontré des performances exceptionnelles sur 14 références de l’industrie, surpassant des concurrents comme OpenAI’s GPT-4. Med-Gemini est construit sur la famille de modèles Gemini de grandes tailles multimodales (LMM) de Google DeepMind, conçus pour comprendre et générer du contenu dans divers formats, notamment le texte, l’audio, les images et la vidéo. Contrairement aux modèles multimodaux traditionnels, Gemini se distingue par une architecture unique de Mixture-of-Experts (MoE), avec des modèles de transformateurs spécialisés capables de gérer des segments de données spécifiques ou des tâches. Dans le domaine médical, cela signifie que Gemini peut engager dynamiquement l’expert le plus approprié en fonction du type de données entrantes, qu’il s’agisse d’une image de radiologie, d’une séquence génétique, d’un historique de patient ou de notes cliniques. Cette configuration reflète l’approche multidisciplinaire que les cliniciens utilisent, améliorant la capacité du modèle à apprendre et à traiter l’information de manière efficace.

Affiner Gemini pour l’IA médicale multimodale

Pour créer Med-Gemini, les chercheurs ont affiné Gemini sur des jeux de données médicales anonymisés. Cela permet à Med-Gemini d’hériter des capacités natives de Gemini, notamment la conversation en langage, la raisonnement avec des données multimodales et la gestion de contextes plus longs pour les tâches médicales. Les chercheurs ont formé trois versions personnalisées de l’encodeur de vision de Gemini pour les modalités 2D, 3D et la génomique. C’est comme former des spécialistes dans différents domaines médicaux. La formation a conduit au développement de trois variantes spécifiques de Med-Gemini : Med-Gemini-2D, Med-Gemini-3D et Med-Gemini-Polygenic.

Med-Gemini-2D

Med-Gemini-2D est formé pour gérer des images médicales conventionnelles telles que les radiographies de poitrine, les coupes de tomographie par ordinateur, les patchs de pathologie et les photos de caméra. Ce modèle excelle dans des tâches telles que la classification, la réponse à des questions visuelles et la génération de texte. Par exemple, étant donné une radiographie de poitrine et l’instruction “La radiographie a-t-elle montré des signes qui pourraient indiquer une carcinome (un signe de croissance cancéreuse) ?”, Med-Gemini-2D peut fournir une réponse précise. Les chercheurs ont révélé que le modèle affiné de Med-Gemini-2D a amélioré la génération de rapports d’IA pour les radiographies de poitrine de 1 % à 12 %, produisant des rapports “équivalents ou meilleurs” que ceux des radiologues.

Med-Gemini-3D

En s’appuyant sur les capacités de Med-Gemini-2D, Med-Gemini-3D est formé pour interpréter des données médicales 3D telles que les scans de tomographie par ordinateur et d’imagerie par résonance magnétique. Ces scans offrent une vue complète des structures anatomiques, nécessitant un niveau plus profond de compréhension et des techniques analytiques plus avancées. La capacité d’analyser des scans 3D avec des instructions textuelles marque un saut significatif dans les diagnostics d’images médicales. Les évaluations ont montré que plus de la moitié des rapports générés par Med-Gemini-3D ont conduit aux mêmes recommandations de soins que celles faites par les radiologues.

Med-Gemini-Polygenic

Contrairement aux autres variantes de Med-Gemini qui se concentrent sur l’imagerie médicale, Med-Gemini-Polygenic est conçu pour prédire les maladies et les résultats de santé à partir de données génomiques. Les chercheurs affirment que Med-Gemini-Polygenic est le premier modèle de son kind à analyser des données génomiques à l’aide d’instructions textuelles. Les expériences montrent que le modèle surpasse les scores polygéniques linéaires précédents dans la prédiction de huit résultats de santé, notamment la dépression, l’accident vasculaire cérébral et le glaucome. De manière remarquable, il démontre également des capacités de tir à zero, en prédissant des résultats de santé supplémentaires sans formation explicite. Cette avancée est cruciale pour diagnostiquer des maladies telles que la maladie coronarienne, la maladie pulmonaire obstructive chronique et le diabète de type 2.

Établir la confiance et assurer la transparence

En plus de ses avancées remarquables dans la gestion de données médicales multimodales, les capacités interactives de Med-Gemini ont le potentiel d’aborder les défis fondamentaux de l’adoption de l’IA dans le domaine médical, tels que la nature de boîte noire de l’IA et les préoccupations concernant le remplacement d’emplois. Contrairement aux systèmes d’IA typiques qui fonctionnent de bout en bout et servent souvent d’outils de remplacement, Med-Gemini fonctionne comme un outil d’assistance pour les professionnels de la santé. En améliorant leurs capacités d’analyse, Med-Gemini atténue les craintes de remplacement d’emplois. Sa capacité à fournir des explications détaillées de ses analyses et de ses recommandations améliore la transparence, permettant aux médecins de comprendre et de vérifier les décisions de l’IA. Cette transparence établit la confiance parmi les professionnels de la santé. De plus, Med-Gemini soutient la surveillance humaine, garantissant que les informations générées par l’IA sont examinées et validées par des experts, favorisant un environnement collaboratif où l’IA et les professionnels médicaux travaillent ensemble pour améliorer les soins aux patients.

Le chemin vers l’application dans le monde réel

Bien que Med-Gemini présente des avancées remarquables, il est encore dans la phase de recherche et nécessite une validation médicale approfondie avant son application dans le monde réel. Des essais cliniques rigoureux et des tests exhaustifs sont essentiels pour garantir la fiabilité, la sécurité et l’efficacité du modèle dans divers contextes cliniques. Les chercheurs doivent valider les performances de Med-Gemini sur différents états médicaux et démographiques de patients pour assurer sa robustesse et sa généralisabilité. Les approbations réglementaires des autorités de santé seront nécessaires pour garantir la conformité aux normes médicales et aux lignes directrices éthiques. Les efforts de collaboration entre les développeurs d’IA, les professionnels de la santé et les organismes réglementaires seront cruciaux pour affiner Med-Gemini, résoudre les limites et établir la confiance dans son utilité clinique.

En résumé

Med-Gemini représente un saut significatif dans l’IA médicale en intégrant des données multimodales, telles que le texte, les images et les informations génomiques, pour fournir des diagnostics complets et des recommandations de traitement. Contrairement aux modèles d’IA traditionnels limités à des tâches uniques et des types de données, l’architecture avancée de Med-Gemini reflète l’approche multidisciplinaire des professionnels de la santé, améliorant la précision diagnostique et favorisant la collaboration. Malgré son potentiel prometteur, Med-Gemini nécessite une validation rigoureuse et une approbation réglementaire avant son application dans le monde réel. Son développement signale un avenir où l’IA assiste les professionnels de la santé, améliorant les soins aux patients grâce à une analyse de données intégrée sophistiquée.

Dr. Tehseen Zia

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.

Unite.AI

Med-Gemini : Transformer l’intelligence artificielle médicale avec des modèles multimodaux de nouvelle génération

Le besoin d’IA médicale multimodale

Présentation de Med-Gemini

Affiner Gemini pour l’IA médicale multimodale

Établir la confiance et assurer la transparence

Le chemin vers l’application dans le monde réel

En résumé

You may like