Kunstig intelligens
AI-forskere udvikler forklarlig neuralt netværk til at opdage genetiske regler

Et hold af forskere har nyligt oprettet et forklarligt neuralt netværk med det formål at hjælpe biologer med at afsløre de mystiske regler, der styrer koden i det menneskelige genom. Forskningsholdet trænede et neuralt netværk på kort over protein-DNA-interaktioner, hvilket gjorde det muligt for AI at opdage, hvordan bestemte DNA-sekvenser regulerer bestemte gener. Forskerne gjorde også modellen forklarlig, så de kunne analysere modellens konklusioner og bestemme, hvordan sekvensmotiver regulerer gener.
En af de store mysterier i biologien er den regulerende kode i genomet. Det er kendt, at DNA består af fire nukleotidbaser – Adenin, Guanin, Thymin og Cytosin – men det er ikke kendt, hvordan disse basepar bruges til at regulere aktivitet. De fire nukleotidbaser kodificerer instruktionerne for opbygning af proteiner, men de kontrollerer også, hvor og hvordan gener udtrykkes (hvordan de danner proteiner i en organisme). Bestemte kombinationer og arrangementer af baserne skaber sektioner af regulerende kode, der binder til segmenter af DNA, og det er ukendt, hvilke kombinationer disse er.
Et tværfagligt hold af computerforskere og biologer satte sig for at løse dette mysterium ved at oprette et forklarligt neuralt netværk. Forskningsholdet oprettede et neuralt netværk, som de døbte “Base Pair Network” eller “BPNet”. Modellen, som BPNet brugte til at generere forudsigelser, kan fortolkes for at identificere regulerende koder. Dette blev opnået ved at forudsige, hvordan proteiner kaldet transkriptionsfaktorer binder med DNA-sekvenser.
Forskerne udførte en række eksperimenter og udførte omfattende computermodellering for at bestemme, hvordan transkriptionsfaktorer og DNA var bundet sammen, og udviklede en detaljeret kort ned til niveauet for enkelt nukleotidbaser. De detaljerede transkriptionsfaktor-DNA-repræsentationer lod forskerne oprette værktøjer, der kan fortolke både kritiske DNA-sekvensmønstre og regler, der fungerer som regulerende kode.
Julia Zeitlinger, PhD-biolog og computorforsker ved Stanford University, forklarede, at resultaterne fra det forklarlige neuralt netværk sammenfaldt med eksisterende eksperimentelle resultater, men de indeholdt også overraskende indsigt i den regulerende kode i genomet. Som eksempel gjorde AI-modellen det muligt for forskningsholdet at opdage en regel, der påvirker, hvordan en transkriptionsfaktor kaldet Nanog fungerer. Når multiple eksemplarer af Nanog-motivet er til stede på samme side af en DNA-dobbelt-helix, binder de samarbejdende til DNA. Som Zeitlinger forklarede via ScienceDaily:
“Der har været en lang række af eksperimentelle beviser for, at sådanne motiv-periodes indimellem findes i den regulerende kode. Men de præcise omstændigheder var uvist, og Nanog havde ikke været en mistænkt. At opdage, at Nanog har sådan en mønster, og at se yderligere detaljer om dets interaktioner, var overraskende, fordi vi ikke specifikt ledte efter denne mønster.”
Den seneste forskningsartikel er langt fra den første studie, der bruger AI til at analysere DNA, men det er sandsynligvis den første studie, der åbner “den sorte kasse” af AI for at afgøre, hvilke DNA-sekvenser regulerer gener i genomet. Neurale netværk er meget gode til at finde mønstre i data, men deres indsigt er svær at trække ud af de modeller, de opretter. Ved at oprette en metode til at analysere, hvilke funktioner modellen betragter som vigtige for forudsigelsen af genetiske regler, kunne forskerne træne mere nuancerede modeller, der fører til nye opdagelser.
Arkitekturen af BPNet ligner netværk, der bruges til at genkende ansigter i billeder. Når computersystemer til billedgenkendelse genkender ansigter i billeder, starter netværket med at registrere kanter og derefter samler disse kanter sammen. Forskellen er, at BPNet lærer fra DNA-sekvenser, registrerer sekvensmotiver og samler disse motiver sammen i højere-ordens regler, der kan bruges til at forudsige binding af data på base-niveau.
Efter at modellen har nået en høj nøjagtighedstræskel, spores mønstrene, som modellen har lært, tilbage til de oprindelige input-sekvenser, hvilket afslører sekvensmotiverne. Til sidst får modellen systematiske DNA-sekvensforespørgsler, hvilket giver forskerne mulighed for at forstå reglerne for, hvordan sekvensmotiver kombinerer og fungerer. Ifølge Zeitlinger er modellen i stand til at forudsige mange flere sekvenser, end forskerne kunne håbe at teste på en traditionel, eksperimentel måde. Desuden giver forudsigelsen af resultaterne af eksperimentelle anomalier forskerne mulighed for at identificere, hvilke eksperimenter der var mest informative, når det kommer til at validere modellen.










