Intelligence artificielle
DeepMind Prêt à Transformer les Sciences Biologiques en Résolvant le Problème du Pliage des Protéines

La division d’intelligence artificielle de Google, DeepMind, a récemment fait des progrès significatifs vers la résolution de l’un des plus anciens défis de la biologie, calculant la forme d’une protéine à partir d’une séquence d’acides aminés. Selon Nature, la percée a le potentiel de transformer les domaines de la biologie et de la chimie, permettant aux scientifiques de déterminer la fonction de nombreuses protéines qui sont actuellement mystérieuses.
La forme d’une protéine définit sa fonction, et la plupart des fonctions biologiques dépendent des protéines. « Le pliage des protéines » est le nom donné au processus qui convertit les chaînes d’acides aminés en structures tridimensionnelles que les protéines nécessitent pour accomplir leurs fonctions. Si les scientifiques peuvent déterminer la relation entre les séquences d’acides aminés et la forme des protéines qu’elles génèrent, ils peuvent déterminer quelles protéines impactent les différents processus biologiques.
Les scientifiques hypothèsent qu’il existe au moins 80 000 protéines dans le protéome humain, mais seulement une petite fraction de ces protéines ont des structures connues. La méthode traditionnelle de détermination de la forme d’une protéine peut prendre des années d’expériences de laboratoire, même en exploitant le pouvoir des algorithmes et des modèles de science informatique. Le travail effectué par DeepMind peut accélérer considérablement le processus de découverte des structures de protéines, en déterminant de manière fiable la structure des protéines en une fraction du temps normal.
Les chercheurs de DeepMind ont formé leurs algorithmes sur une base de données composée d’environ 170 000 séquences de protéines et des formes correspondant à ces séquences. Les algorithmes développés par les chercheurs ont été formés sur entre 100 et 200 GPU, et le processus de formation a pris quelques semaines pour être terminé. Le modèle développé par les chercheurs a été surnommé « AlphaFold ».
AlphaFold fonctionne à l’aide d’un « algorithme de tension », en commençant par relier de petits morceaux de la protéine ensemble, puis en élargissant pour relier des sections plus grandes et plus grandes. De petits clusters d’acides aminés ont été reliés ensemble au début, puis l’algorithme a cherché à trouver des moyens de relier ces clusters.
Les chercheurs d’AlphaFold ont initialement essayé d’utiliser des algorithmes d’apprentissage profond conventionnels sur des données génétiques et structurelles pour prédire la relation entre les acides aminés et les protéines. AlphaFold a ensuite créé des modèles de consensus pour le style des protéines. Lorsque cette technique s’est avérée avoir trop de limitations, les chercheurs ont essayé une nouvelle stratégie. L’équipe de recherche d’AlphaFold a créé des modèles formés sur plus de fonctionnalités, et cette fois, ils ont fait en sorte que le modèle retourne des prédictions pour la structure finale des séquences de protéines.
L’équipe d’ingénieurs a testé AlphaFold en l’inscrivant à une compétition où les algorithmes informatiques concourent pour évaluer la structure d’une protéine à partir de séquences d’acides aminés. La compétition était la « Critical Assessment of Protein Structure Prediction » ou CASP. Les participants à la compétition sont fournis avec 100 séquences d’acides aminés et leurs modèles doivent travailler sur la structure des protéines. Non seulement AlphaFold a surpassé les autres modèles informatiques en termes de précision, mais il a également performé de manière comparable aux techniques de modélisation traditionnelles basées sur le laboratoire. Le score médian final d’AlphaFold était d’environ 92 sur 100, avec des méthodes expérimentales basées sur le laboratoire attribuées un score de 90. Le score médian d’AlphaFold est tombé à 87 pour cent sur les protéines les plus difficiles.
Selon le PDG et co-fondateur de DeepMind, Demis Hassabis, l’entreprise prévoit déjà de donner accès à AlphaFold aux chercheurs, avec des scientifiques de l’Institut Max Planck de biologie du développement qui utilisent déjà le modèle pour découvrir des structures de protéines sur lesquelles ils travaillaient depuis plus d’une décennie.
Janet Thornton, la directrice émérite de l’Institut européen de bioinformatique, a été citée via ScienceMag en disant que les réalisations de DeepMind « vont changer l’avenir de la biologie structurale et de la recherche sur les protéines ». Pendant ce temps, le biologiste de l’Université du Maryland, Shady Grove, John Moult dit qu’il n’a jamais pensé que le problème du pliage des protéines serait résolu de son vivant.
Alors qu’AlphaFold est très peu susceptible de remplacer complètement les méthodes traditionnelles et expérimentales de découverte des structures de protéines, il pourrait accélérer considérablement la vitesse à laquelle les structures de protéines sont découvertes. Les chercheurs peuvent nécessiter moins de données expérimentales de haute qualité pour déterminer une structure de protéine, et les chercheurs ont déjà accès à un grand volume de données génomiques qui pourraient être traduites en structures en utilisant les solutions d’AlphaFold.












