Kunstmatige intelligentie
AI-onderzoekers ontwikkelen verklarende neurale netwerk om genomicsche regels te ontdekken

Een team van onderzoekers heeft onlangs een verklarende neurale netwerk gemaakt dat bedoeld is om biologen te helpen de mysterieuze regels te ontdekken die het code van het menselijk genoom beheersen. Het onderzoeksteam trainde een neurale netwerk op kaarten van eiwit-DNA-interacties, waardoor de AI kon ontdekken hoe bepaalde DNA-sequenties bepaalde genen reguleren. De onderzoekers maakten het model ook verklarend, zodat ze de conclusies van het model konden analyseren en bepalen hoe sequentie-motieven genen reguleren.
Een van de grote mysteries in de biologie is de regulerende code van het genoom. Het is bekend dat DNA bestaat uit vier nucleotide-basen – Adenine, Guanine, Thymine en Cytosine – maar het is niet bekend hoe deze basenparen worden gebruikt om activiteit te reguleren. De vier nucleotide-basen coderen de instructies voor het bouwen van eiwitten, maar ze controleren ook waar en hoe genen worden uitgedrukt (hoe ze eiwitten maken in een organisme). Bepaalde combinaties en arrangementen van de basen creëren secties van regulerende code die binden aan segmenten van DNA, en het is onbekend wat deze combinaties zijn.
Een interdisciplinair team van computerwetenschappers en biologen zette zich tot doel om dit mysterie op te lossen door een verklarende neurale netwerk te creëren. Het onderzoeksteam creëerde een neurale netwerk dat ze “Base Pair Network” of “BPNet” noemden. Het model dat door BPNet wordt gebruikt om voorspellingen te genereren, kan worden geïnterpreteerd om regulerende codes te identificeren. Dit werd bereikt door te voorspellen hoe eiwitten die transcriptiefactoren worden genoemd, binden met DNA-sequenties.
De onderzoekers voerden een reeks experimenten uit en deden uitgebreide computermodellering om te bepalen hoe transcriptiefactoren en DNA samen werden gebonden, en ontwikkelden een gedetailleerde kaart tot op het niveau van individuele nucleotide-basen. De gedetailleerde transcriptiefactor-DNA-weergaven lieten de onderzoekers tools creëren die zowel kritische DNA-sequentiepatronen als de regels die fungeren als regulerende code konden interpreteren.
Julia Zeitlinger, PhD-bioloog en computationeel onderzoeker aan de Stanford University, legde uit dat de resultaten die werden verzameld uit de verklarende neurale netwerk, overeenkwamen met bestaande experimentele resultaten, maar ze ook verrassende inzichten gaven in de regulerende code van het genoom. Als voorbeeld liet het AI-model het onderzoeksteam ontdekken dat een regel die invloed heeft op hoe een transcriptiefactor genaamd Nanog werkt. Wanneer meerdere instanties van het Nanog-motief aanwezig zijn op dezelfde kant van een DNA-dubbele helix, binden ze coöperatief aan het DNA. Zoals Zeitlinger uitlegde via ScienceDaily:
“Er is een lange reeks van experimenteel bewijs dat dergelijke motief-periodiciteit soms bestaat in de regulerende code. Maar de exacte omstandigheden waren niet duidelijk, en Nanog was geen verdachte. Het ontdekken dat Nanog een dergelijk patroon heeft, en het zien van aanvullende details van zijn interacties, was verrassend omdat we niet specifiek naar dit patroon zochten.”
Het recente onderzoeksartikel is verre van de eerste studie die AI gebruikt om DNA te analyseren, maar het is waarschijnlijk de eerste studie die de “black box” van AI opent om te bepalen welke DNA-sequenties genen in het genoom reguleren. Neurale netwerken zijn uitstekend in het vinden van patronen in gegevens, maar hun inzichten zijn moeilijk te extraheren uit de modellen die ze creëren. Door een methode te creëren om te analyseren welke kenmerken het model belangrijk acht voor de voorspelling van genomicsche regels, konden de onderzoekers meer verfijnde modellen trainen die leiden tot nieuwe ontdekkingen.
De architectuur van BPNet is vergelijkbaar met netwerken die worden gebruikt om gezichten in afbeeldingen te herkennen. Wanneer computervisiemsystemen gezichten in afbeeldingen herkennen, begint het netwerk met het detecteren van randen en voegt deze randen vervolgens samen. Het verschil is dat BPNet leert van DNA-sequenties, detecteert sequentie-motieven en voegt deze motieven samen in hogere-orde regels die kunnen worden gebruikt om de binding van gegevens op basis van de baseresolutie te voorspellen.
Nadat het model een hoge nauwkeurigheidsgrens heeft bereikt, worden de patronen die door het model zijn geleerd, teruggevoerd naar de oorspronkelijke invoersequenties, waardoor de sequentie-motieven worden onthuld. Ten slotte wordt het model voorzien van systematische DNA-sequentiequery’s, waardoor de onderzoekers de regels kunnen begrijpen volgens welke sequentie-motieven worden samengesteld en functioneren. Volgens Zeitlinger kan het model veel meer sequenties voorspellen dan de onderzoekers zouden kunnen testen in een traditionele, experimentele manier. Bovendien liet het voorspellen van de uitkomst van experimentele anomalieën de onderzoekers zien welke experimenten het meest informatief waren bij het valideren van het model.










