Intelligence artificielle
Les chercheurs en IA développent un réseau de neurones explicables pour découvrir les règles génomiques

Une équipe de chercheurs a récemment créé un réseau de neurones explicables destiné à aider les biologistes à découvrir les règles mystérieuses qui régissent le code du génome humain. L’équipe de recherche a formé un réseau de neurones sur des cartes d’interactions protéine-ADN, permettant à l’IA de découvrir comment certaines séquences d’ADN régulent certains gènes. Les chercheurs ont également rendu le modèle explicables, afin qu’ils puissent analyser les conclusions du modèle et déterminer comment les motifs de séquençage régulent les gènes.
Une des grandes énigmes de la biologie est le code régulateur du génome. Il est connu que l’ADN est composé de quatre bases nucléotidiques – Adénine, Guanine, Thymine et Cytosine – mais il n’est pas connu comment ces paires de bases sont utilisées pour réguler l’activité. Les quatre bases nucléotidiques codent les instructions pour construire les protéines, mais elles contrôlent également où et comment les gènes sont exprimés, (comment ils produisent des protéines dans un organisme). Des combinaisons et des dispositions particulières des bases créent des sections de code régulateur qui se lient à des segments d’ADN, et il est inconnu quelles sont ces combinaisons.
Une équipe interdisciplinaire de chercheurs en informatique et de biologistes s’est lancée pour résoudre ce mystère en créant un réseau de neurones explicables. L’équipe de recherche a créé un réseau de neurones qu’ils ont appelé “Base Pair Network” ou “BPNet”. Le modèle utilisé par BPNet pour générer des prédictions peut être interprété pour identifier les codes régulateurs. Cela a été accompli en prédissant comment les protéines appelées facteurs de transcription se lient aux séquences d’ADN.
Les chercheurs ont effectué une variété d’expériences et de modélisations informatiques complètes pour déterminer comment les facteurs de transcription et l’ADN étaient liés, en développant une carte détaillée jusqu’au niveau des bases nucléotidiques individuelles. Les représentations détaillées des facteurs de transcription-ADN ont permis aux chercheurs de créer des outils capables d’interpréter à la fois les modèles de séquences d’ADN critiques et les règles qui fonctionnent comme code régulateur.
Julia Zeitlinger, biologiste et chercheuse computationnelle à l’Université de Stanford, a expliqué que les résultats obtenus à partir du réseau de neurones explicables correspondaient aux résultats expérimentaux existants, mais qu’ils contenaient également des informations surprenantes sur le code régulateur du génome. Par exemple, le modèle d’IA a permis à l’équipe de recherche de découvrir une règle qui influence la façon dont un facteur de transcription appelé Nanog opère. Lorsque plusieurs instances du motif Nanog sont présentes sur le même côté d’une hélice d’ADN, ils se lient de manière coopérative à l’ADN. Comme l’a expliqué Zeitlinger via ScienceDaily:
“Il y a eu une longue traînée de preuves expérimentales que une telle périodicité de motif existe parfois dans le code régulateur. Cependant, les circonstances exactes étaient évasives, et Nanog n’avait pas été un suspect. Découvrir que Nanog a un tel modèle, et voir des détails supplémentaires de ses interactions, était surprenant car nous n’avons pas spécifiquement cherché ce modèle.”
L’article de recherche récent est loin d’être la première étude à utiliser l’IA pour analyser l’ADN, mais il est probablement la première étude à ouvrir la “boîte noire” de l’IA pour discerner quelles séquences d’ADN régulent les gènes dans le génome. Les réseaux de neurones excellent pour trouver des modèles dans les données, mais leurs connaissances sont difficiles à extraire des modèles qu’ils créent. En créant une méthode d’analyse des fonctionnalités que le modèle considère importantes pour la prédiction des règles génomiques, les chercheurs pouvaient former des modèles plus nuancés qui conduisent à de nouvelles découvertes.
L’architecture de BPNet est similaire à celle des réseaux utilisés pour reconnaître les visages dans les images. Lorsque les systèmes de vision par ordinateur reconnaissent les visages dans les images, le réseau commence par détecter les bords, puis les relie. La différence est que BPNet apprend à partir de séquences d’ADN, en détectant les motifs de séquence et en les reliant pour former des règles de niveau supérieur qui peuvent être utilisées pour prédire le lien des données à la résolution de base.
Après que le modèle ait atteint un seuil d’exactitude élevé, les modèles appris par le modèle sont retracés jusqu’aux séquences d’entrée originales, révélant les motifs de séquence. Enfin, le modèle est fourni avec des requêtes systématiques de séquences d’ADN, permettant aux chercheurs de comprendre les règles selon lesquelles les motifs de séquence se combinent et fonctionnent. Selon Zeitlinger, le modèle est capable de prédire bien plus de séquences que les chercheurs pourraient espérer tester de manière traditionnelle et expérimentale. De plus, la prédiction des résultats d’anomalies expérimentales a permis aux chercheurs d’identifier quels expériences étaient les plus informatives pour valider le modèle.










