Tekoäly
Tutkijat kehittivät selitettävän neuroverkon genomin sääntöjen löytämiseksi

Tutkijaryhmä on vastikään luonut selitettävän neuroverkon, jonka tarkoituksena on auttaa biologeja paljastamaan ihmisen genomin koodia ohjaavat arvoitukset. Tutkijaryhmä koulutti neuroverkon proteiini-DNA-vuorovaikutusten kartoilla, mikä mahdollisti tekoälylle löytää, miten tiettyjä DNA-juosteita säätelee tiettyjä geenejä. Tutkijat tekivät myös mallin selitettäväksi, jotta he voivat analyysin avulla selvittää, miten mallin johtopäätökset muodostuvat ja miten juosteiden motiivit säätelevät geenejä.
Yksi suurimmista biologian arvoituksista on genomin säätelykoodi. On tiedossa, että DNA koostuu neljästä nukleotidiperusyksiköstä – Adeniinista, Guaniinista, Tymiinistä ja Sytosiinista – mutta ei tiedetä, miten näitä perusyksikköparia käytetään säätelyyn. Neljä nukleotidiperusyksikköä koodaavat ohjeet proteiinien rakentamiseksi, mutta ne myös ohjaavat, missä ja miten geenejä ilmennetään (miten ne tuottavat proteiineja organismoissa). Tiettyjen perusyksiköiden yhdistelmät ja järjestelyt luovat säätelykoodin osia, jotka sitoutuvat DNA:n osiin, ja ei tiedetä, mitkä nämä yhdistelmät ovat.
Tietokoneiden ja biologian tutkijoiden monitieteinen ryhmä lähti ratkaisemaan tätä arvoitusta luomalla selitettävän neuroverkon. Tutkijaryhmä loi neuroverkon, jonka he kutsuivat “Base Pair Network” -verkoksi eli “BPNetiksi”. BPNetin käyttämä malli, joka tuottaa ennusteita, voidaan tulkita säätelykoodeja varten. Tämä saavutettiin ennustamalla, miten proteiinit, transkriptiofaktorit, sitoutuvat DNA-juosteisiin.
Tutkijat suorittivat useita kokeita ja laajoja tietokonemalleja, jotta voivat selvittää, miten transkriptiofaktorit ja DNA sitoutuvat toisiinsa, ja kehittivät yksityiskohtaisen kartan yksittäisiin nukleotidiperusyksikköihin asti. Yksityiskohtaiset transkriptiofaktori-DNA-esitykset antoivat tutkijoille mahdollisuuden luoda työkaluja, joilla voidaan tulkita sekä kriittisiä DNA-juosteiden malleja että säätelykoodin sääntöjä.
Julia Zeitlinger, biologi ja tietokonemallinten tutkija Stanfordin yliopistosta, selitti, että tulokset, jotka saatiin selitettävän neuroverkon avulla, vastasivat olemassa olevia kokeellisia tuloksia, mutta ne sisälsivät myös yllättäviä oivalluksia genomin säätelykoodista. Esimerkiksi tekoälymalli antoi tutkijaryhmälle mahdollisuuden löytää sääntö, joka vaikuttaa siihen, miten transkriptiofaktori Nanog toimii. Kun useita Nanog-motiiveja on samalla puolella DNA:n kaksoiskierteessä, ne sitoutuvat yhteistyössä DNA:han. Kuten Zeitlinger selitti ScienceDailyn kautta:
“On ollut pitkä jälki kokeellista näyttöä siitä, että tällainen motiivin periodisuus joskus on olemassa säätelykoodissa. Kuitenkin tarkat olosuhteet olivat hämäriä, ja Nanog ei ollut epäilty. Sen löytäminen, jolla on tällainen malli, ja näkeminen yksityiskohtia sen vuorovaikutuksista, oli yllättävää, koska emme etsineet tätä mallia.”
Viimeaikainen tutkimusartikkeli ei ole ensimmäinen tutkimus, jossa käytetään tekoälyä DNA:n analysointiin, mutta se on todennäköisesti ensimmäinen tutkimus, jossa “avataan” tekoälyn “musta laatikko” selvittämään, mitkä DNA-juosteet säätelevät geenejä genomin sisällä. Neuroverkot ovat erittäin hyviä löytämään kuvioita datassa, mutta niiden oivallukset ovat vaikeita saada selville malleista, joita ne luovat. Luomalla menetelmän, jolla voidaan analysoida, mitkä piirteet malli pitää tärkeinä genomin sääntöjen ennustamiseksi, tutkijat voivat kouluttaa hienostuneempia malleja, jotka johtavat uusiin löytöihin.
BPNetin arkkitehtuuri on samankaltainen kuin verkot, joita käytetään kasvojen tunnistamiseen kuvissa. Kun tietokoneen näköjärjestelmät tunnistavat kasvot kuvissa, verkko alkaa havaita reunoja ja yhdistää ne toisiinsa. Ero on siinä, että BPNet oppii DNA-juosteista, havaitsee juosteiden motiiveja ja yhdistää ne ylemmän tason sääntöihin, joita voidaan käyttää ennustamaan datan sitoutumista perusyksikkötasolla.
Kun malli on saavuttanut korkean tarkkuuden kynnyksen, mallin oppimat kuvioita voidaan jäljittää takaisin alkuperäisiin syötejuosteisiin, paljastaen juosteiden motiivit. Lopulta mallille annetaan systemaattisia DNA-juosteiden kyselyjä, jotta tutkijat voivat ymmärtää, miten juosteiden motiivit yhdistyvät ja toimivat. Zeitlingerin mukaan malli pystyy ennustamaan paljon enemmän juosteita kuin tutkijat voivat toivoa testata perinteisellä, kokeellisella tavalla. Lisäksi ennustamalla kokeellisten poikkeamien tulokset tutkijat voivat tunnistaa, mitkä kokeet olivat informatiivisimpia mallin validointiin.










