Intelligence Artificielle
DeepMind s'apprête à transformer les sciences biologiques en résolvant le problème de repliement des protéines

La division IA de Google, DeepMind, a récemment fait des progrès significatifs vers la résolution de l'un des plus anciens défis de la biologie, calculant la forme d'une protéine à partir d'une séquence d'acides aminés. Selon Nature, cette percée a le potentiel de transformer les domaines de la biologie et de la chimie, permettant aux scientifiques de déterminer la fonction de nombreuses protéines qui sont actuellement mystérieuses.
La forme d'une protéine définit sa fonction, et la plupart des fonctions biologiques dépendent des protéines. "Repliement des protéines" est le nom donné au processus qui convertit les chaînes d'acides aminés en structures tridimensionnelles dont les protéines ont besoin pour remplir leurs fonctions. Si les scientifiques peuvent déterminer la relation entre les séquences d'acides aminés et la forme des protéines qu'elles génèrent, ils peuvent déterminer quelles protéines ont un impact sur différents processus biologiques.
Les scientifiques émettent l'hypothèse qu'il existe au moins 80,000 XNUMX protéines dans le protéome humain, mais seule une petite fraction de ces protéines a des structures connues. La méthode traditionnelle de détermination de la forme d'une protéine peut nécessiter des années d'expériences en laboratoire, même en tirant parti de la puissance des algorithmes et des modèles informatiques. Le travail effectué par DeepMind peut considérablement accélérer le processus de découverte des structures protéiques, en déterminant de manière fiable la structure des protéines en une fraction du temps normal.
Les chercheurs de DeepMind ont formé leurs algorithmes sur une base de données comprenant environ 170,0000 100 séquences de protéines et les formes correspondant à ces séquences. Les algorithmes développés par les chercheurs ont été formés sur entre 200 et XNUMX GPU, et le processus de formation a duré quelques semaines. Le modèle développé par les chercheurs a été baptisé "AlphaFold".
AlphaFold fonctionne grâce à un "algorithme de tension", en commençant par connecter de petits morceaux de la protéine ensemble, puis en augmentant pour connecter des sections de plus en plus grandes. De petits clusters d'acides aminés ont d'abord été liés, puis l'algorithme a cherché à trouver des moyens de relier ces clusters.
Les chercheurs d'AlphaFold ont d'abord essayé d'utiliser des algorithmes d'apprentissage en profondeur conventionnels sur des données génétiques et structurelles pour prédire la relation entre les acides aminés et les protéines. AlphaFold a ensuite créé des modèles de consensus pour le style des protéines. Lorsque cette technique s'est avérée avoir trop de limites, les chercheurs ont essayé une nouvelle stratégie. L'équipe de recherche d'AlphaFold a créé des modèles entraînés sur plus de fonctionnalités, et cette fois, ils avaient les prédictions de retour du modèle pour la structure finale des séquences de protéines.
L'équipe d'ingénierie a testé AlphaFold en l'inscrivant à une compétition où des algorithmes informatiques s'affrontent pour évaluer la structure d'une protéine à partir de séquences d'acides aminés. Le concours était «l'évaluation critique de la prédiction de la structure des protéines» ou CASP. Les participants au concours reçoivent 100 séquences d'acides aminés et leurs modèles doivent déterminer la structure des protéines. Non seulement AlphaFold a battu les autres modèles informatiques en termes de précision, mais il a également fonctionné de manière comparable aux techniques de modélisation traditionnelles en laboratoire. Le score médian final d'AlphaFold était d'environ 92 sur 100, les méthodes expérimentales en laboratoire se voyant attribuer un score de 90. Le score médian d'AlphaFold est tombé à 87% sur les protéines les plus difficiles.
Selon le directeur général et co-fondateur de DeepMind, Demis Hassabis, la société prévoit déjà de donner aux chercheurs l'accès à AlphaFold, des scientifiques de l'Institut Max Planck pour la biologie du développement utilisant déjà le modèle pour découvrir les structures protéiques sur lesquelles ils travaillaient depuis plus d'une décennie.
Janet Thornton, directrice émérite de l'Institut européen de bioinformatique, a été cité via ScienceMag en disant que les réalisations de DeepMind "changeront l'avenir de la biologie structurale et de la recherche sur les protéines". Pendant ce temps, biologiste à l'Université du Maryland, Shady Grove, dit John Moult qu'il n'a jamais pensé que le problème du repliement des protéines ne serait jamais résolu dans cette vie.
Bien qu'il soit très peu probable qu'AlphaFold remplace complètement les méthodes expérimentales traditionnelles de découverte des structures protéiques, il pourrait augmenter considérablement la vitesse à laquelle les structures protéiques sont découvertes. Les chercheurs peuvent avoir besoin de moins de données expérimentales de haute qualité pour déterminer une structure protéique, et les chercheurs ont déjà accès à un grand volume de données génomiques qui pourraient être traduites en structures à l'aide des solutions d'AlphaFold.












