Ochrona zdrowia
Google DeepMind przedstawia AlphaGenome do odszyfrowania funkcji ludzkiego genomu

Google DeepMind wydał AlphaGenome 28 stycznia, model AI, który przewiduje, jak sekwencje DNA tłumaczą się na funkcje biologiczne, przetwarzając do jednego miliona par zasad w jednym czasie i przewyższając istniejące modele w 25 z 26 benchmarków predykcji efektu wariantu.
Model, opublikowany w Nature i szczegółowo opisany na blogu DeepMind, stanowi znaczący postęp w dziedzinie genomiki komputerowej. W przeciwieństwie do poprzednich modeli, które wymagały oddzielnych systemów do różnych zadań predykcji, AlphaGenome obsługuje wszystko, od ekspresji genów do dostępności chromatyny, w jednej zunifikowanej architekturze.
“AlphaGenome może spojrzeć na długi odcinek DNA i przewidzieć, gdzie znajdują się krytyczne elementy regulacyjne i ich efekt downstream na ekspresję genów”, zespół DeepMind napisał w swoim ogłoszeniu. Okno kontekstowe modelu o milion tokenów pozwala mu przechwytywać oddziaływania dalekosiężne między odległymi regionami DNA, które wpływają na to, jak geny są włączane i wyłączane.
Jak to działa
AlphaGenome łączy dwie architektury sieci neuronowych: sieć konwolucyjną 1D w stylu Borzoi do przetwarzania surowych sekwencji DNA oraz architekturę U-Net zaadaptowaną z segmentacji obrazu. Ten hybrydowy podejście pozwala modelowi obsługiwać zarówno sekwencyjny charakter DNA, jak i złożone relacje przestrzenne między elementami regulacyjnymi.
Dane szkoleniowe obejmują około 7 000 śladów genomowych z konsorcjów ENCODE i FANTOM – ogromnych współpracy, które skatalogowały elementy funkcjonalne w całym ludzkim genomie. Model uczy się przewidywać sygnały z eksperymentalnych testów pomiaru ekspresji genów, dostępności DNA, wiązania białek i modyfikacji chromatyny.
Dla badaczy praktyczną wartość leży w predykcji efektu wariantu. Gdy genom pacjenta zawiera mutację, klinicyści muszą wiedzieć, czy ta wariacja ma znaczenie. AlphaGenome może przewidzieć, jak pojedyncza zmiana nukleotydu wpływa na cały krajobraz regulacyjny, potencjalnie flagując warianty chorobotwórcze, których obecne metody nie wykrywają.
Model osiągnął silne wyniki w benchmarkach testujących jego zdolność do przewidywania, jak warianty genetyczne wpływają na ekspresję genów i aktywność elementów regulacyjnych. W przypadku locus quantitative trait (eQTL) – wariantów znanych z wpływu na poziom ekspresji genów – AlphaGenome dopasował lub przewyższył specjalistyczne modele szkolone specjalnie do tych zadań.
Dostępność oprogramowania open source
DeepMind wydał kod źródłowy AlphaGenome na GitHub do użytku niekomercyjnego, kontynuując wzorzec laboratorium, który udostępnia podstawowe narzędzia biologiczne publicznie. Repozytorium zawiera wagi modelu, kod inferencyjny i dokumentację do uruchamiania predykcji na niestandardowych sekwencjach.
Otwarte wydanie następuje po modelu ustanowionym przez AlphaFold, narzędzie DeepMind do predykcji struktury białka, które zostało użyte przez ponad 3 miliony badaczy od jego wydania w 2021 roku. AlphaGenome rozwiązuje komplementarny problem: podczas gdy AlphaFold przewiduje, jak wyglądają białka, AlphaGenome przewiduje, kiedy i gdzie geny produkują te białka.
CEO Google DeepMind Demis Hassabis ustawił biologię jako podstawową dziedzinę zastosowania możliwości AI laboratorium. Praca w dziedzinie genomiki rozciąga ambicje DeepMind poza AI konwersacyjny i modele językowe, które napędzają produkty takie jak Gemini, stosując podobne innowacje architektoniczne do problemów naukowych.
Dlaczego to ma znaczenie
Ludzki genom zawiera około 3 miliardów par zasad, ale tylko około 1,5% bezpośrednio koduje białka. Pozostałe 98,5% – dawno uważane za “śmieciowe DNA” – zawiera elementy regulacyjne, które kontrolują, kiedy, gdzie i jak bardzo geny są wyrażane. Mutacje w tych niekodujących regionach powodują choroby, ale identyfikacja, które warianty mają znaczenie, była nadzwyczaj trudna.
Tradycyjne metody wymagają drogich, czasochłonnych eksperymentów w celu przetestowania poszczególnych wariantów. Modele uczenia maszynowego, takie jak AlphaGenome, mogą przesiewać tysiące wariantów komputacyjnie, priorytetyzując, które z nich zasługują na eksperymentalne kontynuowanie. W przypadku rzadkich diagnoz chorób, gdzie pacjenci często noszą nowe warianty o nieznanych efektach, ta zdolność mogłaby przyspieszyć ścieżkę od sekwencjonowania do diagnozy.
Zdolność modelu do przetwarzania kontekstów o milionie par zasad jest szczególnie znacząca. Elementy regulacyjne genów mogą znajdować się setki tysięcy par zasad od genów, które kontrolują, komunikując się przez złożone 3D składanie DNA. Poprzednie modele z krótszymi oknami kontekstowymi nie mogły przechwytywać tych dalekosiężnych zależności.
AlphaGenome dołącza do rosnącego ekosystemu narzędzi AI, które transformują badania biologiczne. Predykcja struktury białka, odkrywanie leków i teraz regulacja genów stają się coraz bardziej rozwiązywalnymi problemami dla uczenia maszynowego. Dla społeczności badawczej genetyki otwarta dostępność tych modeli demokratyzuje dostęp do możliwości komputacyjnych, które wcześniej były ograniczone do dobrze finansowanych laboratoriów.
Ograniczenia modelu są również jasne z prezentacji DeepMind. Chociaż AlphaGenome wyróżnia się w przewidywaniu pomiarów eksperymentalnych, tłumaczenie tych predykcji na wyniki kliniczne wymaga dodatkowej walidacji. Przerwa między przewidywaniem dostępności chromatyny a przewidywaniem ryzyka choroby pozostaje znacząca.
Na razie AlphaGenome służy jako narzędzie badawcze – które mogłoby przyspieszyć zrozumienie, jak działa genom, nawet jeśli aplikacje kliniczne pozostają jeszcze kilka lat w przyszłości. 3 000 naukowców z 160 krajów już korzystających z modelu sugeruje, że społeczność badawcza widzi natychmiastową wartość w tym, co DeepMind zbudował.












