Santé
Google DeepMind présente AlphaGenome pour décoder la fonction du génome humain

Google DeepMind a publié AlphaGenome le 28 janvier, un modèle d’IA qui prédit comment les séquences d’ADN se traduisent en fonctions biologiques, traitant jusqu’à un million de paires de bases à la fois et surpassant les modèles existants dans 25 des 26 benchmarks de prédiction d’effet de variante.
Le modèle, publié dans Nature et détaillé sur le blog de DeepMind, représente une avancée significative dans la génomique computationnelle. Alors que les modèles précédents nécessitaient des systèmes séparés pour différentes tâches de prédiction, AlphaGenome gère tout, de l’expression des gènes à l’accessibilité de la chromatine, dans une architecture unifiée unique.
“AlphaGenome peut examiner une longue étendue d’ADN et prédire où se trouvent les éléments régulateurs critiques et leurs effets en aval sur l’expression des gènes”, a écrit l’équipe de DeepMind dans leur annonce. La fenêtre de contexte d’un million de jetons du modèle lui permet de capturer les interactions à longue portée entre des régions d’ADN distantes qui influencent la façon dont les gènes sont allumés et éteints.
Comment cela fonctionne
AlphaGenome combine deux architectures de réseaux de neurones : un réseau de convolution 1D de style Borzoi pour traiter les séquences d’ADN brutes et une architecture U-Net adaptée de la segmentation d’images. Cette approche hybride permet au modèle de gérer à la fois la nature séquentielle de l’ADN et les relations spatiales complexes entre les éléments régulateurs.
Les données de formation couvrent environ 7 000 pistes génomiques des consortiums ENCODE et FANTOM – des efforts de collaboration massifs qui ont catalogué les éléments fonctionnels à travers le génome humain. Le modèle apprend à prédire les signaux à partir d’essais expérimentaux mesurant l’expression des gènes, l’accessibilité de l’ADN, le lien des protéines et les modifications de la chromatine.
Pour les chercheurs, la valeur pratique réside dans la prédiction de l’effet de variante. Lorsqu’un génome de patient contient une mutation, les cliniciens doivent savoir si cette variante est importante. AlphaGenome peut prédire comment un changement de nucléotide unique affecte l’ensemble du paysage régulateur, potentiellement signalant des variants causant des maladies que les méthodes actuelles pourraient manquer.
Le modèle a obtenu des résultats solides sur les benchmarks testant sa capacité à prédire comment les variants génétiques affectent l’expression des gènes et l’activité des éléments régulateurs. Sur les loci quantitatifs de trait d’expression (eQTL) – des variants connus pour affecter les niveaux d’expression des gènes – AlphaGenome a égalé ou dépassé les modèles spécialisés formés spécifiquement pour ces tâches.
Disponibilité en open source
DeepMind a publié le code source d’AlphaGenome sur GitHub pour une utilisation non commerciale, poursuivant le modèle de laboratoire de mise à disposition d’outils de biologie fondamentale au public. Le référentiel inclut les poids du modèle, le code d’inférence et la documentation pour exécuter des prédictions sur des séquences personnalisées.
La publication ouverte suit le modèle établi par AlphaFold, l’outil de prédiction de structure de protéine de DeepMind qui a été utilisé par plus de 3 millions de chercheurs depuis sa sortie en 2021. AlphaGenome répond à un problème complémentaire : tandis qu’AlphaFold prédit à quoi ressemblent les protéines, AlphaGenome prédit quand et où les gènes produisent ces protéines.
Le PDG de Google DeepMind, Demis Hassabis, a positionné la biologie comme un domaine d’application principal des capacités d’IA du laboratoire. Le travail sur la génomique étend les ambitions de DeepMind au-delà de l’IA conversationnelle et des modèles de langage qui alimentent des produits comme Gemini, en appliquant des innovations architecturales similaires à des problèmes scientifiques.
Pourquoi cela compte
Le génome humain contient environ 3 milliards de paires de bases, mais seulement environ 1,5 % codent directement pour les protéines. Les 98,5 % restants – longtemps considérés comme de l'”ADN de rebut” – contiennent des éléments régulateurs qui contrôlent quand, où et combien de gènes sont exprimés. Les mutations dans ces régions non codantes provoquent des maladies, mais identifier lesquelles de ces variants sont importantes a été extrêmement difficile.
Les méthodes traditionnelles nécessitent des expériences coûteuses et longues pour tester des variants individuels. Les modèles d’apprentissage automatique comme AlphaGenome peuvent écraner des milliers de variants de manière computationnelle, en donnant la priorité à ceux qui méritent un suivi expérimental. Pour le diagnostic de maladies rares, où les patients portent souvent des variants nouveaux avec des effets inconnus, cette capacité pourrait accélérer le chemin allant de la séquençage au diagnostic.
La capacité du modèle à traiter des contextes d’un million de paires de bases est particulièrement significative. Les éléments régulateurs de gènes peuvent se situer à des centaines de milliers de paires de bases des gènes qu’ils contrôlent, communiquant à travers un repliement complexe 3D de l’ADN. Les modèles précédents avec des fenêtres de contexte plus courtes ne pouvaient pas capturer ces dépendances à longue portée.
AlphaGenome rejoint un écosystème croissant d’outils d’IA qui transforment la recherche biologique. La prédiction de structure de protéine, la découverte de médicaments et maintenant la régulation des gènes sont de plus en plus des problèmes tractables pour l’apprentissage automatique. Pour la communauté de recherche en génétique, la disponibilité ouverte de ces modèles démocratise l’accès aux capacités de calcul qui étaient précédemment limitées aux laboratoires bien financés.
Les limites du modèle sont également claires à partir de la présentation de DeepMind. Alors qu’AlphaGenome excelle à prédire les mesures expérimentales, la traduction de ces prédictions en résultats cliniques nécessite une validation supplémentaire. L’écart entre la prédiction de l’accessibilité de la chromatine et la prédiction du risque de maladie reste substantiel.
Pour l’instant, AlphaGenome sert d’outil de recherche – un outil qui pourrait accélérer la compréhension de la façon dont fonctionne le génome, même si les applications cliniques restent des années loin. Les 3 000 scientifiques de 160 pays qui utilisent déjà le modèle suggèrent que la communauté de recherche voit une valeur immédiate dans ce que DeepMind a construit.












