Connect with us

Zdravotnictví

Google DeepMind představuje AlphaGenome pro dekódování funkce lidského genomu

mm

Google DeepMind vydal 28. ledna AlphaGenome, model AI, který předpovídá, jak se sekvence DNA překládají do biologických funkcí, zpracovává až jeden milion bazových párů najednou a překonává stávající modely ve 25 z 26 benchmarků pro předpověď efektu varianty.

Model, publikovaný v Nature a podrobně popsán na blogu DeepMind, představuje významný pokrok v oblasti komputační genetiky. Zatímco předchozí modely vyžadovaly samostatné systémy pro různé úkoly předpovědi, AlphaGenome zpracovává vše od exprese genů po přístupnost chromatinu v jediné sjednocené architektuře.

“AlphaGenome může procházet dlouhou sekvencí DNA a předpovídat, kde jsou kritické regulační prvky a jejich následné účinky na expresi genů,” uvedl tým DeepMind ve svém oznámení. Kontextové okno modelu o milionu tokenů umožňuje zachytit vzdálené interakce mezi vzdálenými oblastmi DNA, které ovlivňují, jak jsou geny zapnuty a vypnuty.

Jak to funguje

AlphaGenome kombinuje dvě architektury neuronových sítí: Borzoi-style 1D konvoluční síť pro zpracování surových sekvencí DNA a architekturu U-Net přizpůsobenou z segmentace obrazů. Tento hybridní přístup umožňuje modelu zpracovat jak sekvenční povahu DNA, tak i komplexní prostorové vztahy mezi regulačními prvky.

Trénovací data zahrnují přibližně 7 000 genomických stop z konsorcií ENCODE a FANTOM – masivních spoluprací, které katalogizovaly funkční prvky napříč lidským genem. Model se učí předpovídat signály z experimentálních testů měřících expresi genů, přístupnost DNA, vazbu proteinů a modifikace chromatinu.

Pro výzkumníky leží praktická hodnota v předpovědi efektu varianty. Když genom pacienta obsahuje mutaci, lékaři potřebují vědět, zda tato varianta má význam. AlphaGenome může předpovídat, jak jedna nukleotidová změna ovlivňuje celý regulační krajinný ráz, potenciálně označující varianty, které způsobují onemocnění, které současné metody přehlížejí.

Model dosáhl silných výsledků v benchmarcích testujících jeho schopnost předpovídat, jak genetické varianty ovlivňují expresi genů a aktivitu regulačních prvků. U exprimovaných kvantitativních lokusů (eQTL) – variant známých pro ovlivňování úrovní exprese genů – AlphaGenome odpovídal nebo překonal specializované modely vyškolené speciálně pro tyto úkoly.

Dostupnost open source

DeepMind vydal zdroj AlphaGenome na GitHub pro nekomerční použití, pokračuje v laboratorním vzoru poskytování základních biologických nástrojů veřejně dostupných. Repozitář obsahuje modelové váhy, kód inference a dokumentaci pro spouštění předpovědí na vlastních sekvencích.

Otevřené vydání následuje model zavedený AlphaFold, nástrojem DeepMind pro předpověď struktury proteinů, který použilo přes 3 miliony výzkumníků od jeho vydání v roce 2021. AlphaGenome řeší komplementární problém: zatímco AlphaFold předpovídá, jak vypadají proteiny, AlphaGenome předpovídá, kdy a kde geny produkují tyto proteiny.

CEO Google DeepMind Demis Hassabis umístil biologii jako primární aplikační doménu pro laboratorní AI schopnosti. Práce v oblasti genetiky rozšiřuje ambice DeepMind beyond konverzační AI a jazykové modely, které pohánějí produkty jako Gemini, aplikuje podobné architektonické inovace na vědecké problémy.

Proč je to důležité

Lidský genom obsahuje přibližně 3 miliardy bazových párů, ale pouze asi 1,5 % přímo kóduje proteiny. Zbývajících 98,5 % – dříve považovaných za “odpadní DNA” – obsahuje regulační prvky, které kontrolují, kdy, kde a jak jsou geny exprimovány. Mutace v těchto nekódujících oblastech způsobují onemocnění, ale identifikace, které varianty jsou důležité, byla extraordinárně obtížná.

Tradiční metody vyžadují drahé, časově náročné experimenty pro testování jednotlivých variant. Modely strojového učení, jako je AlphaGenome, mohou screenovat tisíce variant computačně, priorizují, které z nich si zaslouží experimentální follow-up. Pro diagnózu vzácných onemocnění, kde pacienti často nesou novou variantu s neznámými účinky, může tato schopnost urychlit cestu od sekvence k diagnóze.

Schopnost modelu zpracovat kontexty o milionu bazových párů je zvláště významná. Regulační prvky genů mohou být umístěny stovky tisíc bazových párů od genů, které kontrolují, komunikují prostřednictvím komplexního 3D skládání DNA. Předchozí modely se kratšími kontextovými okny nemohly zachytit tyto vzdálené závislosti.

AlphaGenome se připojuje k rostoucímu ekosystému nástrojů AI, které transformují biologický výzkum. Předpověď struktury proteinů, objevování léků a nyní regulace genů jsou stále více řešitelnými problémy pro strojové učení. Pro genetickou výzkumnou komunitu je otevřená dostupnost těchto modelů demokratizuje přístup k computačním schopnostem, které byly dříve omezeny na dobře financované laboratoře.

Omezení modelu jsou také zřejmá z prezentace DeepMind. Zatímco AlphaGenome vyniká v předpovídání experimentálních měření, překlad těchto předpovědí do klinických výsledků vyžaduje další validaci. Mezera mezi předpovědí přístupnosti chromatinu a předpovědí rizika onemocnění zůstává podstatná.

Prozatím AlphaGenome slouží jako výzkumný nástroj – jeden, který může urychlit pochopení, jak genom funguje, i když klinické aplikace zůstávají roky daleko. 3 000 vědců ze 160 zemí, kteří již model používají, naznačují, že výzkumná komunita vidí okamžitou hodnotu v tom, co DeepMind vytvořil.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.