Kunstig intelligens
AI-forskere utvikler forklarbar neuralt nettverk for å oppdage genetiske regler

Et team av forskere har nylig utviklet et forklarbar neuralt nettverk som er ment å hjelpe biologer med å avdekke de mystiske reglene som styrer koden i det menneskelige genomet. Forskerne har trenet et neuralt nettverk på kart over protein-DNA-interaksjoner, og dette har gjort det mulig for AI å oppdage hvordan bestemte DNA-sekvenser regulerer bestemte gener. Forskerne har også gjort modellen forklarbar, slik at de kan analysere modellens konklusjoner og bestemme hvordan sekvensmotiver regulerer gener.
En av de store mysteriene i biologien er den regulerende koden i genomet. Det er kjent at DNA består av fire nukleotidbaser – Adenin, Guanin, Thymin og Cytosin – men det er ikke kjent hvordan disse baseparene brukes til å regulere aktivitet. De fire nukleotidbasene koder instruksjoner for bygging av proteiner, men de kontrollerer også hvor og hvordan gener uttrykkes (hvordan de produserer proteiner i en organisme). Bestemte kombinasjoner og arrangementer av basene skaper seksjoner av regulerende kode som binder til segmenter av DNA, og det er ukjent hva disse kombinasjonene er.
Et tverrfaglig team av datavitenskapsfolk og biologer har satt seg fore å løse dette mysteriet ved å utvikle et forklarbar neuralt nettverk. Forskerne har utviklet et neuralt nettverk som de har døpt “Base Pair Network” eller “BPNet”. Modellen som brukes av BPNet til å generere prediksjoner kan tolkes for å identifisere regulerende koder. Dette ble oppnådd ved å forutsi hvordan proteiner kalt transkripsjonsfaktorer binder med DNA-sekvenser.
Forskerne har utført en rekke eksperimenter og omfattende datamodellering for å bestemme hvordan transkripsjonsfaktorer og DNA var bundet sammen, og de har utviklet en detaljert kart ned til individuelle nukleotidbaser. De detaljerte transkripsjonsfaktor-DNA-representasjonene lot forskerne utvikle verktøy som kan tolke både kritiske DNA-sekvensmønster og reglene som fungerer som regulerende kode.
Julia Zeitlinger, PhD-biolog og computasjonell forsker ved Stanford University, forklarte at resultatene som ble samlet inn fra det forklarbare neurale nettverket sammenfalt med eksisterende eksperimentelle resultater, men de inneholdt også overraskende innsikter i den regulerende koden i genomet. Som et eksempel lot AI-modellen forskerne oppdage en regel som påvirker hvordan en transkripsjonsfaktor kalt Nanog opererer. Når flere eksempler på Nanog-motivet er til stede på samme side av en DNA-dobbelthelix, binder de kooperativt til DNA. Som Zeitlinger forklarte via ScienceDaily:
“Det har vært en lang rekke av eksperimentelle bevis for at slik motivperiodisitet noen ganger eksisterer i den regulerende koden. Men de eksakte omstendighetene var ikke å finne, og Nanog hadde ikke vært en mistenkt. Å oppdage at Nanog har slike mønster, og å se ytterligere detaljer om dens interaksjoner, var overraskende fordi vi ikke spesifikt søkte etter dette mønsteret.”
Den nyeste forskningsartikkelen er langt ifra den første studien som bruker AI til å analysere DNA, men det er sannsynligvis den første studien som åpner den “svarte boksen” i AI for å avgjøre hvilke DNA-sekvenser regulerer gener i genomet. Neurale nettverk er svært gode til å finne mønster i data, men deres innsikter er vanskelige å trekke ut fra modellene de lager. Ved å utvikle en metode for å analysere hvilke egenskaper modellen mener er viktige for prediksjonen av genetiske regler, kunne forskerne trene mer nyanserte modeller som fører til nye oppdagelser.
Arkitekturen til BPNet er lignende nettverk som brukes til å gjenkjenne ansikter i bilder. Når datavisjonssystemer gjenkjenner ansikter i bilder, starter nettverket med å detektere kanter og deretter kombinere disse kantene. Forskjellen er at BPNet lærer fra DNA-sekvenser, detekterer sekvensmotiver og kombinerer disse motivene til høyere-ordens regler som kan brukes til å forutsi binding av data på base-nivå.
Etter at modellen har nådd en høy nøyaktighetsgrense, spores mønsterene som er lært av modellen tilbake til de opprinnelige inndatasekvensene, og dette avslører sekvensmotivene. Til slutt blir modellen gitt systematiske DNA-sekvensforespørsler, og dette lar forskerne forstå reglene for hvordan sekvensmotiver kombinerer og fungerer. Ifølge Zeitlinger er modellen i stand til å forutsi mange flere sekvenser enn forskerne kunne håpe å teste i en tradisjonell, eksperimentell måte. I tillegg lar forutsigelsen av resultatet av eksperimentelle anomali forskerne identifisere hvilke eksperimenter som var mest informative når de validerer modellen.










