Kunstig intelligens
Forskere bruger naturlig sprogbehandling algoritmer til at forstå protein transformation

Forskere fra University of Maryland har nylig anvendt naturlig sprogbehandling teknikker og maskinlæringsalgoritmer til at få indsigt i, hvordan proteinmolekyler skifter fra en form til en anden form. Den nyeste artikel, der er offentliggjort i tidsskriftet Nature Communications, er første gang, at en AI-algoritme er blevet brugt til at studere dynamikken af biomolekylære systemer i forhold til transformation af proteiner.
Proteinmolekyler kan antage forskellige former, men mekanismerne, der får en protein til at skifte fra en form til en anden, er stadig noget mysteriøse. Funktionen af en proteinmolekyle er defineret af dets form, og at få en bedre forståelse af mekanismerne, der påvirker formen/strukturen af en protein, kunne enable forskere til at designe målrettede lægemidler og bestemme årsagen til sygdomme.
Biologiske molekyler er ikke stationære, de er konstant i bevægelse som svar på begivenheder i deres omgivelser. Miljømæssige pres kan få molekyler til at skifte til forskellige former, ofte meget pludseligt. En molekyle kan pludselig omdanne sig til en helt anden struktur, i en proces, der er meget lig uncoiling af en fjeder. Forskellige dele af molekylet folder og ufolder sig, og forskerne studerede de mellemstadier mellem de forskellige molekylære former.
Ifølge Phys.org, var Pratyush Tiwary seniorforfatter på artiklen og er en assistant professor ved Marylands afdeling for kemi og biokemi og Institute for Physical Science and Technology. Ifølge Tiwary kan naturlig sprogbehandling bruges til at modelere, hvordan molekyler transformerer og tilpaser sig. Tiwary bemærker, at molekyler har et visst “sprog”, som de taler, med de bevægelser, molekylerne foretager, kan oversættes til et abstrakt sprog. Når denne proces med at kortlægge molekylebevægelse til sprogmodeller udføres, kan naturlig sprogbehandlingsteknikker og AI-algoritmer bruges til at “generere biologisk sande historier ud af de resulterende abstrakte ord”.
Når en molekyle skifter fra en form til en anden form, sker overgangen ekstremt hurtigt. Overgangen kan kun tage så lang tid som en trilliondel af et sekund. Den rene hastighed af overgangen gør det svært for forskere at bestemme, hvilke parametre påvirker udpakkingsprocessen ved hjælp af metoder som spektroskopi eller endda højtydende mikroskoper. For at bestemme, hvilke parametre påvirker udpakkningen af proteiner, skabte Tiwary og resten af forskningsteamet fysikmodeller, der simulerede proteiner. Komplekse statistiske modeller blev brugt til at skabe proteinsimulationer, der emulerede formen, banen og bevægelsen af molekylerne. Modellerne blev derefter givet til en maskinlæringsalgoritme baseret på naturlig sprogbehandling.
De naturlige sprogbehandlingsmodeller, der blev brugt til at træne maskinlærningssystemet, var meget lig de algoritmer, der blev brugt i de prædiktive tekstsystemer, som Gmail anvender. De simulerede proteiner blev behandlet som et sprog, hvor molekylebevægelserne blev oversat til “bogstaver”. Bogstaverne blev derefter koblet sammen for at danne ord og sætninger. Maskinlæringsalgoritmerne kunne lære de grammatikalske og syntaktiske regler bag proteinstrukturen, og bestemme, hvilke former/bevægelser fulgte andre former/bevægelser. Algoritmerne kunne derefter bruges til at forudsige, hvordan bestemte proteiner ville udpakke sig og hvilke former de ville antage.
Forskerne anvendte en long short-term memory (LSTM) netværk til at analysere proteinbaserede sætninger. Forskningsteamet holdt også øje med matematikken, som netværket var baseret på, og overvågede parametrene, mens netværket lærte dynamikken af molekylær transformation. Ifølge resultaterne af studiet brugte netværket logik, der var lignende en statistisk fysisk koncept kendt som sti-entropi. Hvis denne opdagelse holder sig konstant, kunne det potentielt føre til forbedringer i LSTM-netværk. Tiwary forklarede, at opdagelsen fjerner noget af den sorte kasse-natur af en LSTM, og lader forskere bedre forstå, hvilke parametre kan justeres for optimal præstation.
Som et testtilfælde for deres algoritme analyserede forskerne en biomolekyle kaldet riboswitch. Riboswitch var allerede blevet analyseret ved hjælp af spektroskopi, og da riboswitch blev analyseret med maskinlærningssystemet, matchede de forudsagte riboswitch-former dem, der var opdaget ved spektroskopi.
Tiwary håber, at deres fund vil lade forskere udvikle målrettede lægemidler, der har færre bivirkninger. Som Tiwary forklarede via Phys.org:
“Du vil have kraftfulde lægemidler, der binder meget stærkt, men kun til det, du vil have dem til at binde til. Vi kan opnå det, hvis vi kan forstå de forskellige former, som en given biomolekyle kan antage, fordi vi kan skabe lægemidler, der binder kun til en af disse bestemte former på det rette tidspunkt og kun så længe, vi vil.”




