Tekoäly
Tutkija käyttää luonnollisen kielen käsittelyalgoritmeja ymmärtääkseen proteiinin muuntumista

Marylandin yliopiston tutkijat hakivat äskettäin luonnollinen kielenkäsittely tekniikoita ja koneoppimisalgoritmeja saadaksesi käsityksen siitä, miten proteiinimolekyylejä siirtyä muodosta toiseen muotoon. Tuore lehti, julkaistu Nature Communications -lehdessä, on ensimmäinen kerta, kun tekoälyalgoritmia on käytetty tutkimaan biomolekyylijärjestelmien dynamiikkaa suhteessa proteiinien transformaatioon.
Proteiinimolekyylit voivat ottaa eri muotoja, mutta mekanismit, jotka saavat proteiinin siirtymään muodosta toiseen, ovat edelleen melko mystisiä. Proteiinimolekyylin funktio määritellään sen muodon perusteella, ja proteiinin muotoon/rakenteeseen vaikuttavien mekanismien ymmärtäminen voisi antaa tutkijoille mahdollisuuden suunnitella kohdennettuja lääkehoitoja ja määrittää sairauksien syyt.
Biologiset molekyylit eivät ole paikallaan, ne liikkuvat jatkuvasti vastauksena ympäristönsä tapahtumiin. Ympäristöpaineet voivat saada molekyylit muuttumaan eri muotoihin, usein melko äkillisesti. Molekyyli voi yhtäkkiä laskostua uudelleen täysin erilaiseksi rakenteeksi prosessissa, joka on hyvin samanlainen kuin jousen irrotus. Molekyylin eri osat avautuvat ja laskostuvat, ja tutkijat tutkivat eri molekyylimuotojen välisiä välivaiheita.
Phys.orgin mukaan Pratyush Tiwary oli paperin vanhempi kirjoittaja ja apulaisprofessori Marylandin kemian ja biokemian laitoksessa sekä fysikaalisten tieteiden ja teknologian instituutissa. Tiwaryn mukaan luonnollisen kielen prosessoinnilla voidaan mallintaa, miten molekyylit muuntuvat ja mukautuvat. Tiwary huomauttaa, että molekyyleillä on tietty "kieli", jota ne puhuvat, ja molekyylien tekemät liikkeet voidaan kääntää abstraktille kielelle. Kun tämä prosessi, jossa molekyylien liike kartoitetaan kielimalleihin, suoritetaan, luonnollisen kielen käsittelytekniikoita ja tekoälyalgoritmeja voidaan käyttää "luomaan biologisesti totuudenmukaisia tarinoita tuloksena olevista abstrakteista sanoista".
Kun molekyyli siirtyy muodosta toiseen, siirtyminen tapahtuu erittäin nopeasti. Siirtyminen voi kestää vain sekunnin biljoonaosan. Siirtymävaiheen nopeus tekee tutkijoiden vaikeaksi määrittää, mitkä parametrit vaikuttavat avautumisprosessiin käyttämällä menetelmiä, kuten spektroskopiaa tai jopa suuritehoisia mikroskooppeja. Määrittääkseen, mitkä parametrit vaikuttavat proteiinien laskostumiseen, Tiwary ja muu tutkimusryhmä loivat fysikaalisia malleja, jotka simuloivat proteiineja. Monimutkaisia tilastollisia malleja käytettiin luomaan proteiinisimulaatioita, jotka emuloivat molekyylien muotoa, liikerataa ja liikettä. Sitten mallit annettiin koneoppimisalgoritmille, joka perustui luonnollisen kielen käsittelymenetelmiin.
Koneoppimisjärjestelmän kouluttamiseen käytetyt luonnolliset kielenkäsittelymallit muistuttivat Gmailin käyttämissä ennakoivissa tekstijärjestelmissä käytettyjä algoritmeja. Simuloituja proteiineja käsiteltiin kielenä, jossa molekyylien liikkeet käännettiin "kirjaimiksi". Kirjaimet yhdistettiin sitten yhteen sanojen ja lauseiden muodostamiseksi. Koneoppimisalgoritmit pystyivät oppimaan proteiinirakenteiden takana olevat kieliopilliset ja syntaktiset säännöt määrittämään mitkä muodot/liikkeet seurasivat muita muotoja/liikkeitä. Algoritmeja voitaisiin sitten käyttää ennustamaan, kuinka tietyt proteiinit selviävät ja minkä muodon ne ottavat.
Tutkijat käyttivät a pitkä lyhytaikainen muisti (LSTM) verkosta proteiinipohjaisten lauseiden analysoimiseksi. Tutkimusryhmä seurasi myös matematiikkaa, johon verkko perustui, ja seurasi parametreja verkon oppiessa molekyylimuunnosten dynamiikkaa. Tutkimuksen tulosten mukaan verkossa käytettiin logiikkaa, joka oli samanlainen kuin polun entropiaksi kutsuttu staattisen fysiikan käsite. Jos tämä havainto pysyy vakiona, se voi mahdollisesti johtaa parannuksiin LSTM-verkkoissa. Tiwary selitti, että löytö poistaa osan LSTM:n mustan laatikon luonteesta ja antaa tutkijoille mahdollisuuden ymmärtää paremmin, mitkä parametrit voidaan säätää optimaalista suorituskykyä varten.
Testitapauksena algoritmilleen tutkijat analysoivat biomolekyyliä nimeltä riboswitch. Riboswitch oli jo analysoitu spektroskopialla, ja kun riboswitch analysoitiin koneoppimisjärjestelmällä, ennustetut riboswitch-muodot vastasivat spektroskopialla löydettyjä.
Tiwary toivoo, että heidän havaintonsa antavat tutkijoille mahdollisuuden kehittää kohdennettuja lääkkeitä, joilla on vähemmän sivuvaikutuksia. Kuten Tiwary selitti Phys.orgin kautta:
"Haluat voimakkaita lääkkeitä, jotka sitoutuvat erittäin voimakkaasti, mutta vain siihen asiaan, johon haluat niiden sitoutuvan. Voimme saavuttaa sen, jos ymmärrämme eri muodot, joita tietty kiinnostava biomolekyyli voi ottaa, koska voimme valmistaa lääkkeitä, jotka sitoutuvat vain yhteen näistä erityisistä muodoista oikeaan aikaan ja vain niin kauan kuin haluamme."