Intelligence Artificielle
De l'Evo 1 à l'Evo 2 : comment NVIDIA redéfinit la recherche génomique et les innovations biologiques basées sur l'IA
Imaginez un monde où l'on pourrait prédire le comportement de la vie simplement en analysant une séquence de lettres. Il ne s'agit pas de science-fiction ni d'un monde magique, mais d'un monde réel où les scientifiques s'efforcent d'atteindre cet objectif depuis des années. Ces séquences, composées de quatre nucléotides (A, T, C et G), contiennent les instructions fondamentales de la vie sur Terre, du plus petit microbe au plus grand mammifère. Leur décryptage pourrait révéler des processus biologiques complexes et révolutionner des domaines comme la médecine personnalisée et la durabilité environnementale.
Cependant, malgré cet immense potentiel, décoder même les génomes microbiens les plus simples est une tâche extrêmement complexe. Ces génomes sont constitués de millions de paires de bases d'ADN qui régulent les interactions entre l'ADN, l'ARN et les protéines – les trois éléments clés du dogme fondamental de la biologie moléculaire. Cette complexité existe à de multiples niveaux, des molécules individuelles aux génomes entiers, créant un vaste champ d'information génétique qui a évolué sur des milliards d'années.
Les outils informatiques traditionnels peinaient à gérer la complexité des séquences biologiques. Mais avec l'essor de l'IA générative, il est désormais possible de gérer des milliers de milliards de séquences et de comprendre les relations complexes entre les séquences de jetons. Forts de cette avancée, des chercheurs de l'Arc Institute, de l'Université de Stanford et de NVIDIA ont travaillé à la création d'un système d'IA capable de comprendre les séquences biologiques comme les grands modèles de langage comprennent le texte humain. Ils ont réalisé une avancée révolutionnaire en créant un modèle qui capture à la fois la nature multimodale du dogme central et les complexités de l'évolution. Cette innovation pourrait permettre de prédire et de concevoir de nouvelles séquences biologiques, des molécules individuelles aux génomes entiers. Dans cet article, nous explorerons le fonctionnement de cette technologie, ses applications potentielles, les défis auxquels elle est confrontée et l'avenir de la modélisation génomique.
EVO 1 : un modèle pionnier dans la modélisation génomique
Cette recherche a attiré l'attention fin 2024 lorsque NVIDIA et ses collaborateurs ont présenté Evo 1, un modèle révolutionnaire pour l'analyse et la génération de séquences biologiques d'ADN, d'ARN et de protéines. Entraîné sur 2.7 millions de génomes procaryotes et phagiques, totalisant 300 milliards de nucléotides, ce modèle s'est concentré sur l'intégration du dogme central de la biologie moléculaire, en modélisant le flux d'information génétique de l'ADN à l'ARN, puis aux protéines. Son architecture StripedHyena, un modèle hybride utilisant des filtres et des portes convolutifs, a géré efficacement des contextes longs allant jusqu'à 131,072 1 jetons. Cette conception a permis à Evo XNUMX de relier de petites modifications de séquence à des effets plus larges à l'échelle du système et de l'organisme, comblant ainsi le fossé entre la biologie moléculaire et la génomique évolutive.
Evo 1 a marqué la première étape de la modélisation informatique de l'évolution biologique. Il a permis de prédire avec succès les interactions moléculaires et les variations génétiques en analysant les schémas évolutifs des séquences génétiques. Cependant, lorsque les scientifiques ont cherché à l'appliquer à des génomes eucaryotes plus complexes, les limites du modèle sont apparues clairement. Evo 1 peinait à obtenir une résolution au nucléotide près sur de longues séquences d'ADN et était coûteux en calcul pour les génomes plus volumineux. Ces défis ont conduit à la nécessité d'un modèle plus avancé, capable d'intégrer des données biologiques à plusieurs échelles.
EVO 2 : un modèle fondamental pour la modélisation génomique
S’appuyant sur les leçons tirées d’Evo-1, les chercheurs ont lancé Evo 2 en février 2025, faisant progresser le domaine de la modélisation des séquences biologiques. Qualifié Grâce à un nombre impressionnant de 9.3 40 milliards de paires de bases d'ADN, le modèle a appris à comprendre et à prédire les conséquences fonctionnelles de la variation génétique dans tous les domaines du vivant, y compris les bactéries, les archées, les plantes, les champignons et les animaux. Avec plus de 2 milliards de paramètres, le modèle Evo-1 peut gérer une longueur de séquence sans précédent, allant jusqu'à 1 million de paires de bases, ce que les modèles précédents, y compris Evo-XNUMX, ne pouvaient pas gérer.
Ce qui distingue Evo 2 de ses prédécesseurs est sa capacité à modéliser non seulement les séquences d'ADN, mais aussi les interactions entre l'ADN, l'ARN et les protéines – le dogme central de la biologie moléculaire. Cela permet à Evo 2 de prédire avec précision l'impact des mutations génétiques, des plus infimes modifications nucléotidiques aux variations structurelles plus importantes, d'une manière jusqu'alors impossible.
L'une des principales caractéristiques d'Evo 2 est sa puissante capacité de prédiction « zero-shot », qui lui permet de prédire les effets fonctionnels des mutations sans nécessiter de réglages spécifiques à la tâche. Par exemple, il classifie avec précision les variants BRCA1 cliniquement significatifs, un facteur crucial dans la recherche sur le cancer du sein, en analysant uniquement les séquences d'ADN.
Applications potentielles en sciences biomoléculaires
Les capacités d'Evo 2 ouvrent de nouvelles perspectives en génomique, biologie moléculaire et biotechnologie. Parmi les applications les plus prometteuses, on peut citer :
- Soins de santé et découverte de médicaments : Evo 2 permet de prédire les variantes génétiques associées à des maladies spécifiques, contribuant ainsi au développement de thérapies ciblées. Par exemple : dans les tests Grâce à des variantes du gène BRCA1 associé au cancer du sein, Evo 2 a atteint une précision de plus de 90 % dans la prédiction des mutations bénignes et potentiellement pathogènes. Ces informations pourraient accélérer le développement de nouveaux médicaments et de traitements personnalisés.
- Biologie synthétique et génie génétique : La capacité d'Evo 2 à générer des génomes entiers ouvre de nouvelles perspectives pour la conception d'organismes synthétiques dotés des caractéristiques souhaitées. Les chercheurs peuvent utiliser Evo 2 pour créer des gènes dotés de fonctions spécifiques, favorisant ainsi le développement de biocarburants, de produits chimiques respectueux de l'environnement et de nouvelles thérapies.
- Biotechnologie agricole:Il peut être utilisé pour concevoir des cultures génétiquement modifiées avec des caractéristiques améliorées telles que la résistance à la sécheresse ou la résilience aux ravageurs, contribuant ainsi à la sécurité alimentaire mondiale et à la durabilité agricole.
- Sciences de l'environnement : Evo 2 peut être appliqué à la conception de biocarburants ou à l’ingénierie de protéines qui décomposent les polluants environnementaux comme le pétrole ou le plastique, contribuant ainsi aux efforts de durabilité.
Défis et orientations futures
Malgré ses capacités impressionnantes, Evo 2 fait face à des défis. L'un des principaux obstacles réside dans la complexité informatique nécessaire à l'entraînement et à l'exécution du modèle. Avec une fenêtre contextuelle d'un million de paires de bases et 1 milliards de paramètres, Evo 40 nécessite des ressources informatiques importantes pour fonctionner efficacement. Il est donc difficile pour les petites équipes de recherche d'exploiter pleinement son potentiel sans accès à une infrastructure de calcul haute performance.
De plus, si Evo 2 excelle dans la prédiction des effets des mutations génétiques, il reste encore beaucoup à apprendre sur son utilisation pour concevoir de nouveaux systèmes biologiques de A à Z. Générer des séquences biologiques réalistes n'est qu'une première étape ; le véritable défi consiste à comprendre comment exploiter cette puissance pour créer des systèmes biologiques fonctionnels et durables.
Accessibilité et démocratisation de l'IA en génomique
L’un des aspects les plus intéressants d’Evo 2 est son open-source Disponibilité. Afin de démocratiser l'accès aux outils avancés de modélisation génomique, NVIDIA a rendu publics les paramètres du modèle, le code d'entraînement et les jeux de données. Cette approche en libre accès permet aux chercheurs du monde entier d'explorer et d'approfondir les capacités d'Evo 2, accélérant ainsi l'innovation au sein de la communauté scientifique.
En résumé
Evo 2 représente une avancée majeure dans la modélisation génomique, utilisant l'IA pour décoder le langage génétique complexe du vivant. Sa capacité à modéliser les séquences d'ADN et leurs interactions avec l'ARN et les protéines ouvre de nouvelles perspectives dans les domaines de la santé, de la découverte de médicaments, de la biologie synthétique et des sciences de l'environnement. Evo 2 permet de prédire les mutations génétiques et de concevoir de nouvelles séquences biologiques, offrant un potentiel de transformation pour la médecine personnalisée et les solutions durables. Cependant, sa complexité de calcul présente des défis, notamment pour les petites équipes de recherche. En rendant Evo 2 open source, NVIDIA permet aux chercheurs du monde entier d'explorer et d'étendre ses capacités, stimulant ainsi l'innovation en génomique et en biotechnologie. À mesure que la technologie évolue, elle a le potentiel de remodeler l'avenir des sciences biologiques et de la durabilité environnementale.












