Suivez nous sur

De l'Evo 1 Ă  l'Evo 2 : comment NVIDIA redĂ©finit la recherche gĂ©nomique et les innovations biologiques basĂ©es sur l'IA

Intelligence Artificielle

De l'Evo 1 Ă  l'Evo 2 : comment NVIDIA redĂ©finit la recherche gĂ©nomique et les innovations biologiques basĂ©es sur l'IA

mm

Imaginez un monde où l'on pourrait prédire le comportement de la vie simplement en analysant une séquence de lettres. Il ne s'agit pas de science-fiction ni d'un monde magique, mais d'un monde réel où les scientifiques s'efforcent d'atteindre cet objectif depuis des années. Ces séquences, composées de quatre nucléotides (A, T, C et G), contiennent les instructions fondamentales de la vie sur Terre, du plus petit microbe au plus grand mammifère. Leur décryptage pourrait révéler des processus biologiques complexes et révolutionner des domaines comme la médecine personnalisée et la durabilité environnementale.

Cependant, malgré cet immense potentiel, décoder même les génomes microbiens les plus simples est une tâche extrêmement complexe. Ces génomes sont constitués de millions de paires de bases d'ADN qui régulent les interactions entre l'ADN, l'ARN et les protéines – les trois éléments clés du dogme fondamental de la biologie moléculaire. Cette complexité existe à de multiples niveaux, des molécules individuelles aux génomes entiers, créant un vaste champ d'information génétique qui a évolué sur des milliards d'années.

Les outils informatiques traditionnels peinaient à gérer la complexité des séquences biologiques. Mais avec l'essor de l'IA générative, il est désormais possible de gérer des milliers de milliards de séquences et de comprendre les relations complexes entre les séquences de jetons. Forts de cette avancée, des chercheurs de l'Arc Institute, de l'Université de Stanford et de NVIDIA ont travaillé à la création d'un système d'IA capable de comprendre les séquences biologiques comme les grands modèles de langage comprennent le texte humain. Ils ont réalisé une avancée révolutionnaire en créant un modèle qui capture à la fois la nature multimodale du dogme central et les complexités de l'évolution. Cette innovation pourrait permettre de prédire et de concevoir de nouvelles séquences biologiques, des molécules individuelles aux génomes entiers. Dans cet article, nous explorerons le fonctionnement de cette technologie, ses applications potentielles, les défis auxquels elle est confrontée et l'avenir de la modélisation génomique.

EVO 1 : un modèle pionnier dans la modĂ©lisation gĂ©nomique

Cette recherche a attirĂ© l'attention fin 2024 lorsque NVIDIA et ses collaborateurs ont prĂ©sentĂ© Evo 1, un modèle rĂ©volutionnaire pour l'analyse et la gĂ©nĂ©ration de sĂ©quences biologiques d'ADN, d'ARN et de protĂ©ines. EntraĂ®nĂ© sur 2.7 millions de gĂ©nomes procaryotes et phagiques, totalisant 300 milliards de nuclĂ©otides, ce modèle s'est concentrĂ© sur l'intĂ©gration du dogme central de la biologie molĂ©culaire, en modĂ©lisant le flux d'information gĂ©nĂ©tique de l'ADN Ă  l'ARN, puis aux protĂ©ines. Son architecture StripedHyena, un modèle hybride utilisant des filtres et des portes convolutifs, a gĂ©rĂ© efficacement des contextes longs allant jusqu'Ă  131,072 1 jetons. Cette conception a permis Ă  Evo XNUMX de relier de petites modifications de sĂ©quence Ă  des effets plus larges Ă  l'Ă©chelle du système et de l'organisme, comblant ainsi le fossĂ© entre la biologie molĂ©culaire et la gĂ©nomique Ă©volutive.

Evo 1 a marqué la première étape de la modélisation informatique de l'évolution biologique. Il a permis de prédire avec succès les interactions moléculaires et les variations génétiques en analysant les schémas évolutifs des séquences génétiques. Cependant, lorsque les scientifiques ont cherché à l'appliquer à des génomes eucaryotes plus complexes, les limites du modèle sont apparues clairement. Evo 1 peinait à obtenir une résolution au nucléotide près sur de longues séquences d'ADN et était coûteux en calcul pour les génomes plus volumineux. Ces défis ont conduit à la nécessité d'un modèle plus avancé, capable d'intégrer des données biologiques à plusieurs échelles.

EVO 2 : un modèle fondamental pour la modĂ©lisation gĂ©nomique

S’appuyant sur les leçons tirĂ©es d’Evo-1, les chercheurs ont lancĂ© Evo 2 en fĂ©vrier 2025, faisant progresser le domaine de la modĂ©lisation des sĂ©quences biologiques. QualifiĂ© Grâce Ă  un nombre impressionnant de 9.3 40 milliards de paires de bases d'ADN, le modèle a appris Ă  comprendre et Ă  prĂ©dire les consĂ©quences fonctionnelles de la variation gĂ©nĂ©tique dans tous les domaines du vivant, y compris les bactĂ©ries, les archĂ©es, les plantes, les champignons et les animaux. Avec plus de 2 milliards de paramètres, le modèle Evo-1 peut gĂ©rer une longueur de sĂ©quence sans prĂ©cĂ©dent, allant jusqu'Ă  1 million de paires de bases, ce que les modèles prĂ©cĂ©dents, y compris Evo-XNUMX, ne pouvaient pas gĂ©rer.

Ce qui distingue Evo 2 de ses prédécesseurs est sa capacité à modéliser non seulement les séquences d'ADN, mais aussi les interactions entre l'ADN, l'ARN et les protéines – le dogme central de la biologie moléculaire. Cela permet à Evo 2 de prédire avec précision l'impact des mutations génétiques, des plus infimes modifications nucléotidiques aux variations structurelles plus importantes, d'une manière jusqu'alors impossible.

L'une des principales caractĂ©ristiques d'Evo 2 est sa puissante capacitĂ© de prĂ©diction « zero-shot Â», qui lui permet de prĂ©dire les effets fonctionnels des mutations sans nĂ©cessiter de rĂ©glages spĂ©cifiques Ă  la tâche. Par exemple, il classifie avec prĂ©cision les variants BRCA1 cliniquement significatifs, un facteur crucial dans la recherche sur le cancer du sein, en analysant uniquement les sĂ©quences d'ADN.

 Applications potentielles en sciences biomolĂ©culaires

Les capacitĂ©s d'Evo 2 ouvrent de nouvelles perspectives en gĂ©nomique, biologie molĂ©culaire et biotechnologie. Parmi les applications les plus prometteuses, on peut citer :

  • Soins de santĂ© et dĂ©couverte de mĂ©dicaments : Evo 2 permet de prĂ©dire les variantes gĂ©nĂ©tiques associĂ©es Ă  des maladies spĂ©cifiques, contribuant ainsi au dĂ©veloppement de thĂ©rapies ciblĂ©es. Par exemple : dans les tests Grâce Ă  des variantes du gène BRCA1 associĂ© au cancer du sein, Evo 2 a atteint une prĂ©cision de plus de 90 % dans la prĂ©diction des mutations bĂ©nignes et potentiellement pathogènes. Ces informations pourraient accĂ©lĂ©rer le dĂ©veloppement de nouveaux mĂ©dicaments et de traitements personnalisĂ©s.
  • Biologie synthĂ©tique et gĂ©nie gĂ©nĂ©tique : La capacitĂ© d'Evo 2 Ă  gĂ©nĂ©rer des gĂ©nomes entiers ouvre de nouvelles perspectives pour la conception d'organismes synthĂ©tiques dotĂ©s des caractĂ©ristiques souhaitĂ©es. Les chercheurs peuvent utiliser Evo 2 pour crĂ©er des gènes dotĂ©s de fonctions spĂ©cifiques, favorisant ainsi le dĂ©veloppement de biocarburants, de produits chimiques respectueux de l'environnement et de nouvelles thĂ©rapies.
  • Biotechnologie agricole:Il peut ĂŞtre utilisĂ© pour concevoir des cultures gĂ©nĂ©tiquement modifiĂ©es avec des caractĂ©ristiques amĂ©liorĂ©es telles que la rĂ©sistance Ă  la sĂ©cheresse ou la rĂ©silience aux ravageurs, contribuant ainsi Ă  la sĂ©curitĂ© alimentaire mondiale et Ă  la durabilitĂ© agricole.
  • Sciences de l'environnement : Evo 2 peut ĂŞtre appliquĂ© Ă  la conception de biocarburants ou Ă  l’ingĂ©nierie de protĂ©ines qui dĂ©composent les polluants environnementaux comme le pĂ©trole ou le plastique, contribuant ainsi aux efforts de durabilitĂ©.

Défis et orientations futures

Malgré ses capacités impressionnantes, Evo 2 fait face à des défis. L'un des principaux obstacles réside dans la complexité informatique nécessaire à l'entraînement et à l'exécution du modèle. Avec une fenêtre contextuelle d'un million de paires de bases et 1 milliards de paramètres, Evo 40 nécessite des ressources informatiques importantes pour fonctionner efficacement. Il est donc difficile pour les petites équipes de recherche d'exploiter pleinement son potentiel sans accès à une infrastructure de calcul haute performance.

De plus, si Evo 2 excelle dans la prĂ©diction des effets des mutations gĂ©nĂ©tiques, il reste encore beaucoup Ă  apprendre sur son utilisation pour concevoir de nouveaux systèmes biologiques de A Ă  Z. GĂ©nĂ©rer des sĂ©quences biologiques rĂ©alistes n'est qu'une première Ă©tape ; le vĂ©ritable dĂ©fi consiste Ă  comprendre comment exploiter cette puissance pour crĂ©er des systèmes biologiques fonctionnels et durables.

Accessibilité et démocratisation de l'IA en génomique

L’un des aspects les plus intéressants d’Evo 2 est son open-source Disponibilité. Afin de démocratiser l'accès aux outils avancés de modélisation génomique, NVIDIA a rendu publics les paramètres du modèle, le code d'entraînement et les jeux de données. Cette approche en libre accès permet aux chercheurs du monde entier d'explorer et d'approfondir les capacités d'Evo 2, accélérant ainsi l'innovation au sein de la communauté scientifique.

En résumé

Evo 2 représente une avancée majeure dans la modélisation génomique, utilisant l'IA pour décoder le langage génétique complexe du vivant. Sa capacité à modéliser les séquences d'ADN et leurs interactions avec l'ARN et les protéines ouvre de nouvelles perspectives dans les domaines de la santé, de la découverte de médicaments, de la biologie synthétique et des sciences de l'environnement. Evo 2 permet de prédire les mutations génétiques et de concevoir de nouvelles séquences biologiques, offrant un potentiel de transformation pour la médecine personnalisée et les solutions durables. Cependant, sa complexité de calcul présente des défis, notamment pour les petites équipes de recherche. En rendant Evo 2 open source, NVIDIA permet aux chercheurs du monde entier d'explorer et d'étendre ses capacités, stimulant ainsi l'innovation en génomique et en biotechnologie. À mesure que la technologie évolue, elle a le potentiel de remodeler l'avenir des sciences biologiques et de la durabilité environnementale.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.