Intelligence artificielle

De Evo 1 à Evo 2 : Comment NVIDIA redéfinit la recherche génomique et les innovations biologiques impulsées par l’IA

mm

Imaginez un monde où nous pourrions prédire le comportement de la vie en analysant simplement une séquence de lettres. Ce n’est pas de la science-fiction ou un monde magique, mais un monde réel où les scientifiques ont cherché à atteindre cet objectif pendant des années. Ces séquences, composées de quatre nucléotides (A, T, C et G), contiennent les instructions fondamentales pour la vie sur Terre, des plus petits micro-organismes aux plus grands mammifères. Déchiffrer ces séquences a le potentiel de débloquer des processus biologiques complexes, transformant des domaines comme la médecine personnalisée et la durabilité environnementale.

Cependant, malgré ce potentiel immense, déchiffrer même les génomes microbiens les plus simples est une tâche extrêmement complexe. Ces génomes sont composés de millions de paires de bases d’ADN qui régulent les interactions entre l’ADN, l’ARN et les protéines – les trois éléments clés du dogme central de la biologie moléculaire. Cette complexité existe à plusieurs niveaux, des molécules individuelles aux génomes entiers, créant un vaste champ d’information génétique qui a évolué sur des milliards d’années.

Les outils de calcul traditionnels ont eu du mal à gérer la complexité des séquences biologiques. Mais avec l’avènement de l’IA générative, il est maintenant possible de passer à l’échelle de billions de séquences et de comprendre des relations complexes entre des séquences de jetons. En s’appuyant sur ce progrès, les chercheurs de l’Institut Arc, de l’Université Stanford et de NVIDIA ont travaillé sur la création d’un système d’IA capable de comprendre les séquences biologiques comme les grands modèles de langage comprennent le texte humain. Maintenant, ils ont réalisé une avancée majeure en créant un modèle qui capture à la fois la nature multimodale du dogme central et les complexités de l’évolution. Cette innovation pourrait conduire à prédire et concevoir de nouvelles séquences biologiques, des molécules individuelles aux génomes entiers. Dans cet article, nous allons explorer comment cette technologie fonctionne, ses applications potentielles, les défis qu’elle rencontre et l’avenir de la modélisation génomique.

EVO 1 : Un modèle pionnier dans la modélisation génomique

Cette recherche a attiré l’attention à la fin de 2024 lorsque NVIDIA et ses collaborateurs ont présenté Evo 1, un modèle révolutionnaire pour analyser et générer des séquences biologiques à travers l’ADN, l’ARN et les protéines. Formé sur 2,7 millions de génomes prokaryotes et de phages, totalisant 300 milliards de jetons nucléotidiques, le modèle s’est concentré sur l’intégration du dogme central de la biologie moléculaire, en modélisant le flux d’information génétique de l’ADN à l’ARN aux protéines. Son architecture StripedHyena, un modèle hybride utilisant des filtres convolutionnels et des portes, a géré efficacement des contextes longs de jusqu’à 131 072 jetons. Cette conception a permis à Evo 1 de relier de petits changements de séquence à des effets plus larges sur le système et l’organisme, en comblant le fossé entre la biologie moléculaire et la génomique évolutionnaire.

Evo 1 a été le premier pas dans la modélisation computationnelle de l’évolution biologique. Il a prédit avec succès les interactions moléculaires et les variations génétiques en analysant les modèles évolutionnaires dans les séquences génétiques. Cependant, alors que les scientifiques visaient à l’appliquer à des génomes eukaryotes plus complexes, les limites du modèle sont devenues claires. Evo 1 a eu du mal avec la résolution des nucléotides uniques sur de longues séquences d’ADN et a été coûteux en calcul pour les génomes plus grands. Ces défis ont conduit au besoin d’un modèle plus avancé capable d’intégrer les données biologiques à plusieurs échelles.

EVO 2 : Un modèle fondamental pour la modélisation génomique

En s’appuyant sur les leçons tirées d’Evo-1, les chercheurs ont lancé Evo 2 en février 2025, faisant progresser le domaine de la modélisation de séquences biologiques. Formé sur un total de 9,3 billions de paires de bases d’ADN, le modèle a appris à comprendre et prédire les conséquences fonctionnelles des variations génétiques à travers tous les domaines de la vie, y compris les bactéries, les archées, les plantes, les champignons et les animaux. Avec plus de 40 milliards de paramètres, le modèle Evo-2 peut gérer une longueur de séquence sans précédent de jusqu’à 1 million de paires de bases, ce que les modèles précédents, y compris Evo-1, ne pouvaient pas gérer.

Ce qui distingue Evo 2 de ses prédécesseurs est sa capacité à modéliser non seulement les séquences d’ADN mais également les interactions entre l’ADN, l’ARN et les protéines – l’ensemble du dogme central de la biologie moléculaire. Cela permet à Evo 2 de prédire avec précision l’impact des mutations génétiques, des plus petites modifications de nucléotides aux variations structurelles plus importantes, de manière qui était auparavant impossible.

Une caractéristique clé d’Evo 2 est sa forte capacité de prédiction à froid, qui lui permet de prédire les effets fonctionnels des mutations sans nécessiter un réglage spécifique à la tâche. Par exemple, il classe avec précision les variants cliniquement significatifs du gène BRCA1, un facteur crucial dans la recherche sur le cancer du sein, en analysant uniquement les séquences d’ADN.

 Applications potentielles dans les sciences biomoléculaires

Les capacités d’Evo 2 ouvrent de nouvelles frontières dans la génomique, la biologie moléculaire et la biotechnologie. Certaines des applications les plus prometteuses incluent :

  • Santé et découverte de médicaments : Evo 2 peut prédire quels variants génétiques sont associés à des maladies spécifiques, aidant ainsi au développement de thérapies ciblées. Par exemple, dans des tests avec des variants du gène associé au cancer du sein BRCA1, Evo 2 a atteint plus de 90 % de précision dans la prédiction desquelles des mutations sont bénignes ou potentiellement pathogènes. De telles connaissances pourraient accélérer le développement de nouveaux médicaments et de traitements personnalisés. ​
  • Biologie synthétique et génie génétique : La capacité d’Evo 2 à générer des génomes entiers ouvre de nouvelles voies dans la conception d’organismes synthétiques dotés de traits souhaités. Les chercheurs peuvent utiliser Evo 2 pour concevoir des gènes avec des fonctions spécifiques, faisant progresser le développement de biocarburants, de produits chimiques respectueux de l’environnement et de thérapies nouvelles.
  • Biotechnologie agricole : Il peut être utilisé pour concevoir des cultures génétiquement modifiées avec des traits améliorés tels que la résistance à la sécheresse ou la résistance aux parasites, contribuant ainsi à la sécurité alimentaire mondiale et à la durabilité agricole.
  • Science de l’environnement : Evo 2 peut être appliqué pour concevoir des biocarburants ou des protéines qui décomposent les polluants environnementaux comme le pétrole ou le plastique, contribuant ainsi aux efforts de durabilité.​

Défis et orientations futures

Malgré ses capacités impressionnantes, Evo 2 fait face à des défis. Un obstacle clé est la complexité computationnelle impliquée dans la formation et l’exécution du modèle. Avec une fenêtre de contexte de 1 million de paires de bases et 40 milliards de paramètres, Evo 2 nécessite des ressources computationnelles importantes pour fonctionner efficacement. Cela rend difficile pour les petites équipes de recherche l’utilisation pleine de son potentiel sans accès à une infrastructure de calcul haute performance.

En outre, même si Evo 2 excelle dans la prédiction des effets des mutations génétiques, il reste encore beaucoup à apprendre sur la façon de l’utiliser pour concevoir de nouveaux systèmes biologiques à partir de zéro. Générer des séquences biologiques réalistes n’est que le premier pas ; le véritable défi réside dans la compréhension de la manière d’utiliser ce pouvoir pour créer des systèmes biologiques fonctionnels et durables.

Accessibilité et démocratisation de l’IA dans la génomique

L’un des aspects les plus excitants d’Evo 2 est sa disponibilité en open-source. Pour démocratiser l’accès aux outils de modélisation génomique avancés, NVIDIA a rendu les paramètres du modèle, le code de formation et les ensembles de données publics. Cette approche d’accès ouvert permet aux chercheurs du monde entier d’explorer et d’étendre les capacités d’Evo 2, accélérant ainsi l’innovation dans la communauté scientifique.

Le point clé

Evo 2 est une avancée significative dans la modélisation génomique, utilisant l’IA pour déchiffrer le langage génétique complexe de la vie. Sa capacité à modéliser les séquences d’ADN et leurs interactions avec l’ARN et les protéines ouvre de nouvelles possibilités dans les soins de santé, la découverte de médicaments, la biologie synthétique et la science de l’environnement. Evo 2 peut prédire les mutations génétiques et concevoir de nouvelles séquences biologiques, offrant un potentiel transformateur pour la médecine personnalisée et les solutions durables. Cependant, sa complexité computationnelle présente des défis, en particulier pour les petites équipes de recherche. En rendant Evo 2 open-source, NVIDIA permet aux chercheurs du monde entier d’explorer et d’étendre ses capacités, stimulant ainsi l’innovation dans la génomique et la biotechnologie. À mesure que la technologie continue d’évoluer, elle a le potentiel de redéfinir l’avenir des sciences biologiques et de la durabilité environnementale.

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.