Zdravotnictví
Google DeepMind představil AlphaGenome pro dekódování funkce lidského genomu

Google DeepMind vydal AlphaGenome 28. ledna, model AI, který předpovídá, jak se sekvence DNA překládají do biologických funkcí, zpracovává až jeden milion bazových párů najednou a překonává stávající modely ve 25 z 26 benchmarků pro předpověď efektu varianty.
Model, publikovaný v Nature a podrobně popsán na blogu DeepMind, představuje významný pokrok v oblasti komputační genetiky. Zatímco předchozí modely vyžadovaly samostatné systémy pro různé úkoly předpovědi, AlphaGenome zpracovává vše od expresie genů po dostupnost chromatinu v jediné sjednocené architektuře.
“AlphaGenome může prohlédnout dlouhou sekvenci DNA a předpovědět, kde jsou kritické regulační prvky a jejich následné účinky na expresi genů,” napsal tým DeepMind ve svém oznámení. Kontextové okno modelu o milionu tokenů umožňuje zachytit dlouhodobé interakce mezi vzdálenými oblastmi DNA, které ovlivňují, jak jsou geny zapnuty a vypnuty.
Jak to funguje
AlphaGenome kombinuje dvě architektury neuronových sítí: Borzoi-style 1D konvoluční síť pro zpracování syrových sekvencí DNA a architekturu U-Net přizpůsobenou z obrazové segmentace. Tento hybridní přístup umožňuje modelu zpracovat jak sekvenční povahu DNA, tak i komplexní prostorové vztahy mezi regulačními prvky.
Trénovací data zahrnují přibližně 7 000 genomických stop ze konsorcií ENCODE a FANTOM – masivních spoluprací, které katalogizovaly funkční prvky napříč lidským genolem. Model se učí předpovídat signály z experimentálních testů měřících expresi genů, dostupnost DNA, vazbu proteinů a modifikace chromatinu.
Pro výzkumníky leží praktická hodnota v předpovědi efektu varianty. Když genom pacienta obsahuje mutaci, klinici potřebují vědět, zda tato varianta má význam. AlphaGenome může předpovědět, jak změna jediného nukleotidu ovlivňuje celý regulační krajinný plán, potenciálně označující varianty, které způsobují onemocnění, které současné metody přehlédly.
Model dosáhl silných výsledků v benchmarcích testujících jeho schopnost předpovídat, jak genetické varianty ovlivňují expresi genů a aktivitu regulačních prvků. U kvantitativních lokusů expresních (eQTL) – variant známých pro ovlivňování úrovní exprese genů – AlphaGenome odpovídal nebo překonal specializované modely speciálně pro tyto úkoly.
Dostupnost open source
DeepMind vydal zdroj AlphaGenome na GitHub pro nekomerční použití, pokračuje v laboratorním vzoru veřejně dostupných základních biologických nástrojů. Repozitář zahrnuje modelové váhy, kód inference a dokumentaci pro běh předpovědí na vlastních sekvencích.
Otevřená verze následuje model zavedený AlphaFoldem, nástrojem DeepMind pro předpověď struktury proteinů, který použilo více než 3 miliony výzkumníků od jeho vydání v roce 2021. AlphaGenome řeší komplementární problém: zatímco AlphaFold předpovídá, jak proteiny vypadají, AlphaGenome předpovídá, kdy a kde geny produkují tyto proteiny.
CEO Google DeepMind Demis Hassabis umístil biologii jako primární aplikační doménu pro laboratorní AI schopnosti. Práce v oblasti genomiky rozšiřuje ambice DeepMindu za hranice konverzační AI a jazykových modelů, které pohánějí produkty jako Gemini, aplikuje podobné architektonické inovace na vědecké problémy.
Proč to matters
Lidský genom obsahuje přibližně 3 miliardy bazových párů, ale pouze asi 1,5 % přímo kóduje proteiny. Zbývajících 98,5 % – dříve považovaných za “odpadní DNA” – obsahuje regulační prvky, které kontrolují, kdy, kde a kolik genů se exprimují. Mutace v těchto ne-kódujících oblastech způsobují onemocnění, ale identifikace variant, které mají význam, byla mimořádně obtížná.
Tradiční metody vyžadují drahé, časově náročné experimenty pro testování jednotlivých variant. Modely strojového učení, jako je AlphaGenome, mohou screeningovat tisíce variant computationally, priorizují, které z nich si zaslouží experimentální follow-up. Pro diagnózu vzácných onemocnění, kde pacienti často nesou novou variantu s neznámými účinky, může tato schopnost urychlit cestu od sekvence k diagnóze.
Schopnost modelu zpracovat milion bazových párů kontextu je zvláště významná. Regulační prvky genů mohou být umístěny stovky tisíc bazových párů od genů, které kontrolují, komunikují prostřednictvím komplexního 3D skládání DNA. Předchozí modely se kratšími kontextovými okny nemohly zachytit tyto dlouhodobé závislosti.
AlphaGenome se připojuje k rostoucímu ekosystému nástrojů AI, které transformují biologický výzkum. Předpověď struktury proteinů, objevování léků a nyní regulace genů jsou stále více řešitelné problémy pro strojové učení. Pro komunitu genetického výzkumu otevřená dostupnost těchto modelů demokratizuje přístup k výpočetním schopnostem, které byly dříve omezeny na dobře financované laboratoře.
Omezení modelu jsou také zřejmá z prezentace DeepMind. Zatímco AlphaGenome vyniká v předpovídání experimentálních měření, překlad těchto předpovědí do klinických výsledků vyžaduje další validaci. Mezera mezi předpovědí dostupnosti chromatinu a předpovědí rizika onemocnění zůstává podstatná.
Prozatím AlphaGenome slouží jako výzkumný nástroj – jeden, který by mohl urychlit pochopení, jak genom funguje, i když klinické aplikace zůstávají roky pryč. 3 000 vědců ze 160 zemí, kteří již model používají, naznačují, že výzkumná komunita vidí okamžitou hodnotu toho, co DeepMind postavil.












