Gesundheitswesen

Google DeepMind stellt AlphaGenome vor, um die Funktion des menschlichen Genoms zu entschlüsseln

mm

Google DeepMind hat am 28. Januar AlphaGenome veröffentlicht, ein KI-Modell, das vorhersagt, wie DNA-Sequenzen in biologische Funktionen übersetzt werden, und bis zu einer Million Basenpaare gleichzeitig verarbeiten kann. Es übertrifft bestehende Modelle in 25 von 26 Varianteneffektpredictions-Benchmarks.

Das Modell, das in der Zeitschrift Nature veröffentlicht und im DeepMind-Blog ausführlich beschrieben wird, stellt einen bedeutenden Fortschritt in der computergestützten Genomik dar. Während frühere Modelle separate Systeme für verschiedene Vorhersageaufgaben erforderten, kann AlphaGenome alles von Genexpression bis hin zu Chromatin-Zugänglichkeit in einer einzigen, einheitlichen Architektur handhaben.

“AlphaGenome kann über eine lange DNA-Strecke hinweg schauen und vorhersagen, wo sich die kritischen regulatorischen Elemente befinden und welche Auswirkungen sie auf die Genexpression haben”, schrieb das DeepMind-Team in seiner Ankündigung. Das millionstoken-Kontextfenster des Modells ermöglicht es, langfristige Wechselwirkungen zwischen entfernten DNA-Regionen zu erfassen, die die Genexpression beeinflussen.

Wie es funktioniert

AlphaGenome kombiniert zwei neuronale Netzwerkarchitekturen: ein Borzoi-ähnliches 1D-Konvolutionsnetzwerk für die Verarbeitung von Roh-DNA-Sequenzen und eine U-Net-Architektur, die von der Bildsegmentierung adaptiert wurde. Dieser hybride Ansatz ermöglicht es dem Modell, sowohl die sequenzielle Natur der DNA als auch die komplexen räumlichen Beziehungen zwischen regulatorischen Elementen zu handhaben.

Die Trainingsdaten umfassen etwa 7.000 genomische Spuren aus den ENCODE- und FANTOM-Konsortien – massive gemeinsame Anstrengungen, die funktionale Elemente im menschlichen Genom katalogisiert haben. Das Modell lernt, Signale von experimentellen Assays zuvorherzusagen, die Genexpression, DNA-Zugänglichkeit, Proteinbindung und Chromatinmodifikationen messen.

Für Forscher liegt der praktische Wert in der Vorhersage von Varianteneffekten. Wenn das Genom eines Patienten eine Mutation enthält, müssen Kliniker wissen, ob diese Variante eine Rolle spielt. AlphaGenome kann vorhersagen, wie eine einzelne Nukleotidänderung das gesamte regulatorische Landschaftsbild beeinflusst und möglicherweise krankheitsverursachende Varianten identifizieren, die von aktuellen Methoden übersehen werden.

Das Modell erzielte starke Ergebnisse in Benchmarks, die seine Fähigkeit testeten, vorherzusagen, wie genetische Varianten die Genexpression und die Aktivität regulatorischer Elemente beeinflussen. Bei expression quantitativen Trait-Loci (eQTLs) – Varianten, die bekanntermaßen die Genexpression beeinflussen – entsprach oder übertraf AlphaGenome speziell für diese Aufgaben trainierte Modelle.

Open-Source-Verfügbarkeit

DeepMind hat den Quellcode von AlphaGenome auf GitHub für nichtkommerzielle Nutzung veröffentlicht und damit das Muster fortgesetzt, grundlegende Biologie-Tools öffentlich zugänglich zu machen. Das Repository enthält Modellgewichte, Inferenzcode und Dokumentation für die Ausführung von Vorhersagen auf benutzerdefinierten Sequenzen.

Die offene Veröffentlichung folgt dem Muster, das von AlphaFold etabliert wurde, dem Werkzeug von DeepMind zur Vorhersage von Proteinstrukturen, das seit seiner Veröffentlichung im Jahr 2021 von über 3 Millionen Forschern verwendet wurde. AlphaGenome behandelt ein komplementäres Problem: Während AlphaFold vorhersagt, wie Proteine aussehen, sagt AlphaGenome vorher, wann und wo Gene diese Proteine produzieren.

Google DeepMind-CEO Demis Hassabis hat Biologie als primäres Anwendungsgebiet für die KI-Fähigkeiten des Labors positioniert. Die Genomik-Arbeit erweitert DeepMinds Ambitionen über die konversationale KI und Sprachmodelle hinaus, die Produkte wie Gemini antreiben, und wendet ähnliche architektonische Innovationen auf wissenschaftliche Probleme an.

Warum das wichtig ist

Das menschliche Genom enthält etwa 3 Milliarden Basenpaare, aber nur etwa 1,5 % codieren direkt für Proteine. Die verbleibenden 98,5 % – lange als “Junk-DNA” abgetan – enthalten regulatorische Elemente, die steuern, wann, wo und wie viel Gene exprimiert werden. Mutationen in diesen nichtcodierenden Regionen verursachen Krankheiten, aber es ist außerordentlich schwierig, zu bestimmen, welche Varianten eine Rolle spielen.

Traditionelle Methoden erfordern teure, zeitaufwändige Experimente, um einzelne Varianten zu testen. KI-Modelle wie AlphaGenome können Tausende von Varianten computergestützt filtern und priorisieren, welche für ein experimentelles Follow-up in Frage kommen. Bei der Diagnose von seltenen Krankheiten, bei denen Patienten oft neue Varianten mit unbekannten Auswirkungen tragen, könnte diese Fähigkeit den Weg von der Sequenzierung zur Diagnose beschleunigen.

Die Fähigkeit des Modells, millionstoken-Kontexte zu verarbeiten, ist besonders bedeutsam. Genregulatorische Elemente können Hunderttausende von Basenpaaren von den Genen entfernt sein, die sie steuern, und kommunizieren durch komplexe 3D-Faltung der DNA. Frühere Modelle mit kürzeren Kontextfenstern konnten diese langfristigen Abhängigkeiten nicht erfassen.

AlphaGenome ist Teil eines wachsenden Ökosystems von KI-Tools, die die biologische Forschung verändern. Proteinstrukturvorhersage, Wirkstoffentdeckung und nun Genregulation sind zunehmend lösbare Probleme für das maschinelle Lernen. Für die genetische Forschungsgemeinschaft demokratisiert die offene Verfügbarkeit dieser Modelle den Zugang zu computergestützten Fähigkeiten, die zuvor nur in gut ausgestatteten Labors verfügbar waren.

Die Einschränkungen des Modells sind auch aus der Präsentation von DeepMind ersichtlich. Während AlphaGenome bei der Vorhersage experimenteller Messungen hervorragt, erfordert die Übersetzung dieser Vorhersagen in klinische Ergebnisse weitere Validierung. Die Lücke zwischen der Vorhersage der Chromatin-Zugänglichkeit und der Vorhersage des Krankheitsrisikos bleibt erheblich.

AlphaGenome dient derzeit als Forschungsinstrument – eines, das das Verständnis dafür, wie das Genom funktioniert, beschleunigen könnte, auch wenn klinische Anwendungen noch Jahre entfernt sind. Die 3.000 Wissenschaftler in 160 Ländern, die das Modell bereits nutzen, deuten darauf hin, dass die Forschungsgemeinschaft den unmittelbaren Wert dessen sieht, was DeepMind aufgebaut hat.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.