Gesundheitswesen
Google DeepMind stellt AlphaGenome vor, um die Funktion des menschlichen Genoms zu entschlüsseln

Google DeepMind veröffentlichte am 28. Januar AlphaGenome, ein KI-Modell, das vorhersagt, wie DNA-Sequenzen in biologische Funktionen übersetzt werden, und bis zu einer Million Basenpaare gleichzeitig verarbeiten und in 25 von 26 Varianteneffektpredictions-Benchmarks bestehende Modelle übertrifft.
Das Modell, das in Nature veröffentlicht und im DeepMind-Blog detailliert beschrieben wird, stellt einen bedeutenden Fortschritt in der computergestützten Genomik dar. Während frühere Modelle separate Systeme für verschiedene Vorhersageaufgaben erforderten, kann AlphaGenome alles von Genexpression bis hin zu Chromatin-Zugänglichkeit in einer einzigen, einheitlichen Architektur verarbeiten.
“AlphaGenome kann einen langen DNA-Abschnitt betrachten und vorhersagen, wo sich die kritischen regulatorischen Elemente befinden und wie sie die Genexpression beeinflussen”, schrieb das DeepMind-Team in seiner Ankündigung. Das millionstoken-Kontextfenster des Modells ermöglicht es, langreichweitige Wechselwirkungen zwischen entfernten DNA-Regionen zu erfassen, die beeinflussen, wie Gene ein- und ausgeschaltet werden.
Wie es funktioniert
AlphaGenome kombiniert zwei neuronale Netzwerkarchitekturen: ein Borzoi-ähnliches 1D-Konvolutionsnetzwerk zur Verarbeitung von Roh-DNA-Sequenzen und eine U-Net-Architektur, die aus der Bildsegmentierung adaptiert wurde. Dieser hybride Ansatz ermöglicht es dem Modell, sowohl die sequenzielle Natur der DNA als auch die komplexen räumlichen Beziehungen zwischen regulatorischen Elementen zu verarbeiten.
Die Trainingsdaten umfassen etwa 7.000 genomische Spuren aus den ENCODE- und FANTOM-Konsortien – massive, kollaborative Bemühungen, die funktionelle Elemente über das gesamte menschliche Genom hinweg katalogisiert haben. Das Modell lernt, Signale aus experimentellen Assays zuvorherzusagen, die Genexpression, DNA-Zugänglichkeit, Proteinbindung und Chromatinmodifikationen messen.
Für Forscher liegt der praktische Wert in der Vorhersage von Varianteneffekten. Wenn das Genom eines Patienten eine Mutation enthält, müssen Kliniker wissen, ob diese Variante eine Rolle spielt. AlphaGenome kann vorhersagen, wie eine einzelne Nukleotidänderung das gesamte regulatorische Landschaftsbild beeinflusst und möglicherweise krankheitsverursachende Varianten markiert, die herkömmliche Methoden übersehen.
Das Modell erzielte starke Ergebnisse in Benchmarks, die seine Fähigkeit testeten, vorherzusagen, wie genetische Varianten die Genexpression und die Aktivität regulatorischer Elemente beeinflussen. Bei expression quantitativen Trait-Loci (eQTLs) – Varianten, die bekanntermaßen die Genexpressionsebene beeinflussen – erreichte AlphaGenome die gleichen oder besseren Ergebnisse wie speziell für diese Aufgaben trainierte Modelle.
Open-Source-Verfügbarkeit
DeepMind veröffentlichte den Quellcode von AlphaGenome auf GitHub für nichtkommerzielle Nutzung und setzt damit das Muster der Veröffentlichung grundlegender Biologietools fort. Das Repository enthält Modellgewichte, Inferenzcode und Dokumentationen für die Ausführung von Vorhersagen auf benutzerdefinierten Sequenzen.
Die offene Veröffentlichung folgt dem Modell, das von AlphaFold, DeepMinds Werkzeug zur Vorhersage von Proteinstrukturen, etabliert wurde, das seit seiner Veröffentlichung im Jahr 2021 von über 3 Millionen Forschern verwendet wurde. AlphaGenome behandelt ein komplementäres Problem: Während AlphaFold vorhersagt, wie Proteine aussehen, sagt AlphaGenome vorher, wann und wo Gene diese Proteine produzieren.
Google DeepMind-CEO Demis Hassabis hat die Biologie als primäres Anwendungsgebiet für die KI-Fähigkeiten des Labors positioniert. Die Genomarbeit erweitert DeepMinds Ambitionen über die konversationale KI und Sprachmodelle hinaus, die Produkte wie Gemini antreiben, und wendet ähnliche architektonische Innovationen auf wissenschaftliche Probleme an.
Warum dies wichtig ist
Das menschliche Genom enthält etwa 3 Milliarden Basenpaare, aber nur etwa 1,5 % codieren direkt für Proteine. Die verbleibenden 98,5 % – lange als “Junk-DNA” abgetan – enthalten regulatorische Elemente, die steuern, wann, wo und wie viel Gene exprimiert werden. Mutationen in diesen nichtcodierenden Regionen verursachen Krankheiten, aber die Identifizierung der Varianten, die eine Rolle spielen, ist außerordentlich schwierig.
Herkömmliche Methoden erfordern teure, zeitaufwändige Experimente, um einzelne Varianten zu testen. KI-Modelle wie AlphaGenome können Tausende von Varianten computergestützt screenen und priorisieren, welche für ein experimentelles Follow-up in Frage kommen. Bei der Diagnose von seltenen Krankheiten, bei denen Patienten oft neue Varianten mit unbekannten Auswirkungen tragen, kann diese Fähigkeit den Weg von der Sequenzierung zur Diagnose beschleunigen.
Die Fähigkeit des Modells, millionen Basenpaare-Kontexte zu verarbeiten, ist besonders bedeutsam. Genregulatorische Elemente können Hunderttausende von Basenpaaren von den Genen entfernt sein, die sie steuern, und kommunizieren durch komplexe 3D-Faltung der DNA. Frühere Modelle mit kürzeren Kontextfenstern konnten diese langreichweitigen Abhängigkeiten nicht erfassen.
AlphaGenome ist Teil eines wachsenden Ökosystems von KI-Tools, die die biologische Forschung verändern. Proteinstukturvorhersage, Wirkstoffentdeckung und jetzt Genregulation sind zunehmend lösbare Probleme für das maschinelle Lernen. Für die Genetikforschungsgemeinschaft demokratisiert die offene Verfügbarkeit dieser Modelle den Zugang zu computergestützten Fähigkeiten, die zuvor nur in gut ausgestatteten Labors verfügbar waren.
Die Einschränkungen des Modells sind auch aus der Präsentation von DeepMind klar ersichtlich. Während AlphaGenome hervorragend darin ist, experimentelle Messungen vorherzusagen, erfordert die Übersetzung dieser Vorhersagen in klinische Ergebnisse weitere Validierung. Die Lücke zwischen der Vorhersage von Chromatin-Zugänglichkeit und der Vorhersage von Krankheitsrisiken bleibt erheblich.
Für den Moment dient AlphaGenome als Forschungstool – eines, das das Verständnis dafür, wie das Genom funktioniert, beschleunigen kann, auch wenn klinische Anwendungen noch Jahre entfernt sind. Die 3.000 Wissenschaftler in 160 Ländern, die das Modell bereits nutzen, deuten darauf hin, dass die Forschungsgemeinschaft unmittelbaren Nutzen in dem sieht, was DeepMind aufgebaut hat.












