Sundhedsvæsen
Google DeepMind præsenterer AlphaGenome til afkodning af menneskegenomens funktion

Google DeepMind udgav AlphaGenome den 28. januar, et AI-model, der forudsiger, hvordan DNA-sekvenser oversættes til biologiske funktioner, og som kan behandle op til en million basepar på én gang og overgår eksisterende modeller i 25 af 26 variant-effektprediktionsbenchmarks.
Modellen, der er publiceret i Nature og detaljeret på DeepMind-bloggen, repræsenterer en betydelig fremgang i komputermæssig genetik. Hvor tidligere modeller krævede separate systemer til forskellige prediktionsopgaver, kan AlphaGenome håndtere alt fra genekspression til kromatintilgængelighed i en enkelt, samlet arkitektur.
“AlphaGenome kan se over en lang sekvens af DNA og forudsige, hvor de kritiske regulatoriske elementer er, og deres downstream-effekter på genekspression,” skrev DeepMind-holdet i deres meddelelse. Modellens million-token-kontekstvindue giver det mulighed for at fange lange afstandssammenhænge mellem fjerntliggende DNA-regioner, der påvirker, hvordan gener aktiveres og deaktiveres.
Hvordan det fungerer
AlphaGenome kombinerer to neurale netværksarkitekturer: en Borzoi-inspireret 1D-konvolutionsnetværk til behandling af rå DNA-sekvenser og en U-Net-arkitektur tilpasset fra billedsegmentering. Denne hybride tilgang giver modellen mulighed for at håndtere både den sekventielle natur af DNA og de komplekse rumlige sammenhænge mellem regulatoriske elementer.
Træningsdataene omfatter ca. 7.000 genetiske spor fra ENCODE- og FANTOM-konsortierne – massive samarbejdsindsatser, der har katalogiseret funktionelle elementer over hele det menneskelige genom. Modellen lærer at forudsige signaler fra eksperimentelle assays, der måler genekspression, DNA-adgang, proteinbinding og kromatinmodifikationer.
For forskere ligger den praktiske værdi i variant-effektprediktionsmulighederne. Når en patients genom indeholder en mutation, skal klinikerne vide, om denne variant har betydning. AlphaGenome kan forudsige, hvordan en enkelt nukleotidændring påvirker det samlede regulatoriske landskab, og potentielt identificere sygdomsfremkaldende varianter, som nuværende metoder overser.
Modellen opnåede stærke resultater på benchmarks, der testede dens evne til at forudsige, hvordan genetiske varianter påvirker genekspression og regulatorisk elementaktivitet. For eksemplet expression quantitative trait loci (eQTL’er) – varianter, der påvirker genekspressionsniveauer – matchede eller overgik AlphaGenome specialiserede modeller, der var trænet specifikt til disse opgaver.
Åben kildekode
DeepMind udgav AlphaGenomes kildekode på GitHub til ikke-kommerciel brug, og fortsætter laboratoriets mønster med at gøre grundlæggende biologiværktøjer offentligt tilgængelige. Repozitoriet indeholder modelvægte, inferenskode og dokumentation for at køre forudsigelser på brugerdefinerede sekvenser.
Den åbne udgivelse følger modellen etableret af AlphaFold, DeepMinds værktøj til proteinstrukturforudsigelse, der er blevet brugt af over 3 millioner forskere siden udgivelsen i 2021. AlphaGenome løser et komplementært problem: mens AlphaFold forudsiger, hvordan proteiner ser ud, forudsiger AlphaGenome, hvornår og hvor gener producerer disse proteiner.
Google DeepMind-direktør Demis Hassabis har positioneret biologi som en primær anvendelsesdomæne for laboratoriets AI-kapaciteter. Genomarbejdet udvider DeepMinds ambitioner ud over den konversationale AI og sprogmodeller, der driver produkter som Gemini, og anvender lignende arkitektoniske innovationer til videnskabelige problemer.
Hvorfor det har betydning
Det menneskelige genom indeholder ca. 3 milliarder basepar, men kun ca. 1,5% koder direkte for proteiner. De resterende 98,5% – tidligere betragtet som “skrald-DNA” – indeholder regulatoriske elementer, der kontrollerer, hvornår, hvor og hvor meget gener udtrykkes. Mutationer i disse ikke-kodende regioner forårsager sygdomme, men det har været ekstraordinært svært at identificere, hvilke varianter der har betydning.
Traditionelle metoder kræver dyre, tidskrævende eksperimenter for at teste enkeltvarianter. Maskinlæringsmodeller som AlphaGenome kan skærme tusinder af varianter komputermæssigt og prioritere, hvilke der fortjener eksperimentel opfølgning. For sjældne sygdomsdiagnoser, hvor patienter ofte bærer nye varianter med ukendte effekter, kan denne funktion accelerere vejen fra sekvensering til diagnose.
Modellens evne til at behandle million basepar-kontekster er særligt betydelig. Genregulatoriske elementer kan ligge hundredtusinder af basepar væk fra generne, de kontrollerer, og kommunikerer gennem komplekse 3D-foldninger af DNA. Tidligere modeller med kortere kontekstvinduer kunne ikke fange disse lange afstandssammenhænge.
AlphaGenome indgår i en voksende økosystem af AI-værktøjer, der transformerer biologisk forskning. Proteinstrukturforudsigelse, lægemiddelforskning og nu genregulering er stadig mere håndterbare problemer for maskinlæring. For genforskningsfællesskabet demokratiserer den åbne tilgængelighed af disse modeller adgangen til komputermæssige kapaciteter, der tidligere var begrænset til vel-finansierede laboratorier.
Modellens begrænsninger er også tydelige fra DeepMinds præsentation. Mens AlphaGenome excellerer i at forudsige eksperimentelle målinger, kræver oversættelsen af disse forudsigelser til kliniske resultater yderligere validering. Gapet mellem at forudsige kromatintilgængelighed og at forudsige sygdomsrisiko er stadig betydelig.
For nu fungerer AlphaGenome som et forskningsværktøj – et, der kan accelerere forståelsen af, hvordan genomet fungerer, selv om kliniske anvendelser kan ligge år væk. De 3.000 forskere i 160 lande, der allerede bruger modellen, antyder, at forskningsfællesskabet ser en umiddelbar værdi i, hvad DeepMind har bygget.












