Umělá inteligence

DeepMind připraven transformovat biologické vědy řešením problému skládání proteinů

mm

Divize Google pro umělou inteligenci DeepMind nedávno dosáhla významného pokroku při řešení jednoho z nejstarších problémů biologie, výpočtu tvaru proteinu z aminokyselinové sekvence. Podle Nature má tento průlom potenciál transformovat obory biologie a chemie, umožňující vědcům určit funkci mnoha proteinů, které jsou目前 záhadné.

Tvar proteinu určuje jeho funkci a většina biologických funkcí závisí na proteinech. “Skládání proteinů” je název procesu, který přeměňuje řetězce aminokyselin na trojrozměrné struktury, které proteiny potřebují k plnění svých funkcí. Pokud vědci mohou určit vztah mezi aminokyselinovými sekvencemi a tvary proteinů, které generují, mohou určit, které proteiny ovlivňují různé biologické procesy.

Vědci předpokládají, že existuje alespoň 80 000 proteinů v lidském proteomu, ale pouze malá část z nich má známé struktury. Tradiční metoda určování tvaru proteinu může trvat roky laboratorních experimentů, i při využití počítačových algoritmů a modelů. Práce provedená DeepMind může dramaticky urychlit proces objevování struktur proteinů, spolehlivě určující strukturu proteinů za zlomek normálního času.

Vědci z DeepMind vyškolili své algoritmy na databázi asi 170 000 proteinových sekvencí a tvarů odpovídajících těmto sekvencím. Algoritmy vyvinuté vědci byly vyškoleny na 100 až 200 GPU a proces školení trval několik týdnů. Model vyvinutý vědci dostal název “AlphaFold”.

AlphaFold funguje prostřednictvím “tension algoritmu”, začínajícího spojením malých částí proteinu a poté škálováním na spojení větších a větších částí. Nejprve byly spojeny malé klastry aminokyselin a poté algoritmus hledal způsoby, jak spojit tyto klastry.

Vědci z AlphaFold nejprve zkoušeli používat konvenční hluboké učení na genetických a strukturálních datech k předpovědi vztahu mezi aminokyselinami a proteiny. AlphaFold poté vytvořil konsensuální modely pro styl proteinů. Když tato technika ukázala příliš mnoho omezení, vědci vyzkoušeli novou strategii. Tým AlphaFold vytvořil modely vyškolené na více funkcích a tento model poté vrátil předpovědi konečné struktury proteinových sekvencí.

Inženýrský tým otestoval AlphaFold účastí v soutěži, kde počítačové algoritmy soutěží o určení struktury proteinu z aminokyselinových sekvencí. Soutěž se nazývá “Critical Assessment of Protein Structure Prediction” nebo CASP. Účastníkům soutěže jsou poskytnuty 100 aminokyselinových sekvencí a jejich modely musí určit strukturu proteinů. AlphaFold nejenom porazil ostatní počítačové modely v přesnosti, ale také dosáhl srovnatelných výsledků s tradičními laboratorními metodami. Konečný, mediánový skóre AlphaFoldu bylo asi 92 z 100, zatímco laboratorní experimentální metody měly skóre 90. Mediánový skóre AlphaFoldu klesl na 87 procent u nejvíce obtížných proteinů.

Podle generálního ředitele a spoluzakladatele DeepMind Demise Hassabise společnost již plánuje poskytnout vědcům přístup k AlphaFold, přičemž vědci z Max Planck Institute for Development Biology již využívají model k objevování struktur proteinů, na kterých pracovali více než deset let.

Janet Thornton, emeritní ředitelka European Bioinformatics Institute, byla citována v ScienceMag jako říkající, že úspěchy DeepMind “změní budoucnost strukturální biologie a proteinového výzkumu”. Mezitím biolog z University of Maryland, Shady Grove, John Moult říká, že nikdy nemyslel, že problém skládání proteinů bude vyřešen v tomto životě.

Zatímco AlphaFold je vysoce nepravděpodobné, že zcela nahradí tradiční experimentální metody objevování struktur proteinů, může dramaticky zvýšit rychlost, s níž jsou objevovány struktury proteinů. Vědci mohou vyžadovat méně kvalitních experimentálních dat k určení struktury proteinu a vědci již mají přístup k velké části genomických dat, která by mohla být přeložena do struktur pomocí řešení AlphaFold.

Blogger a programátor se specializací na Machine Learning a Deep Learning témata. Daniel doufá, že pomůže ostatním využít sílu AI pro sociální dobro.