Künstliche Intelligenz
Von Evo 1 zu Evo 2: Wie NVIDIA die genetische Forschung und AI-getriebene biologische Innovationen neu definiert
Stellen Sie sich eine Welt vor, in der wir das Verhalten von Lebewesen nur durch die Analyse einer Sequenz von Buchstaben vorhersagen könnten. Dies ist keine Science-Fiction oder eine magische Welt, sondern eine reale Welt, in der Wissenschaftler seit Jahren danach streben, dieses Ziel zu erreichen. Diese Sequenzen, die aus vier Nukleotiden (A, T, C und G) bestehen, enthalten die grundlegenden Anweisungen für das Leben auf der Erde, von den kleinsten Mikroben bis hin zu den größten Säugetieren. Das Entschlüsseln dieser Sequenzen hat das Potenzial, komplexe biologische Prozesse zu entschlüsseln und Bereiche wie personalisierte Medizin und Umweltschutz zu revolutionieren.
Dennoch ist das Entschlüsseln sogar der einfachsten mikrobiellen Genome eine hochkomplexe Aufgabe. Diese Genome bestehen aus Millionen von DNA-Basenpaaren, die die Interaktionen zwischen DNA, RNA und Proteinen regulieren – die drei Schlüsselelemente in der zentralen Dogma der Molekularbiologie. Diese Komplexität existiert auf mehreren Ebenen, von einzelnen Molekülen bis hin zu ganzen Genomen, und schafft ein weites Feld genetischer Informationen, die sich über Milliarden von Jahren entwickelt haben.
Traditionelle computergestützte Werkzeuge haben Schwierigkeiten, die Komplexität biologischer Sequenzen zu bewältigen. Aber mit dem Aufkommen von generativer KI ist es nun möglich, über Billionen von Sequenzen zu skalieren und komplexe Beziehungen zwischen Sequenzen von Token zu verstehen. Aufbauend auf dieser Entwicklung haben Forscher am Arc Institute, der Stanford University und NVIDIA an einem KI-System gearbeitet, das biologische Sequenzen wie große Sprachmodelle menschliche Texte verstehen kann. Jetzt haben sie eine bahnbrechende Entwicklung gemacht, indem sie ein Modell erstellt haben, das sowohl die multimodale Natur der zentralen Dogma als auch die Komplexität der Evolution erfassen kann. Diese Innovation könnte dazu führen, dass neue biologische Sequenzen vorhergesagt und entworfen werden können, von einzelnen Molekülen bis hin zu ganzen Genomen. In diesem Artikel werden wir uns ansehen, wie diese Technologie funktioniert, ihre potenziellen Anwendungen, die Herausforderungen, die sie zu überwinden hat, und die Zukunft der genetischen Modellierung.
EVO 1: Ein Pioniermodell in der genetischen Modellierung
Diese Forschung erregte Aufmerksamkeit Ende 2024, als NVIDIA und seine Mitarbeiter Evo 1 vorstellten, ein bahnbrechendes Modell für die Analyse und Generierung biologischer Sequenzen über DNA, RNA und Proteine. Trainiert auf 2,7 Millionen prokaryotischen und Phagen-Genomen, insgesamt 300 Milliarden Nukleotid-Token, konzentrierte sich das Modell auf die Integration der zentralen Dogma der Molekularbiologie, indem es den Fluss genetischer Informationen von DNA zu RNA zu Proteinen modellierte. Seine StripedHyena-Architektur, ein Hybridmodell, das konvolutionale Filter und Gates verwendet, konnte effizient lange Kontexte von bis zu 131.072 Token verarbeiten. Dieses Design ermöglichte es Evo 1, kleine Sequenzänderungen mit breiteren systemweiten und organismenweiten Effekten zu verknüpfen, und schloss die Lücke zwischen Molekularbiologie und evolutionärer Genetik.
Evo 1 war der erste Schritt in der computergestützten Modellierung biologischer Evolution. Es konnte erfolgreich molekulare Interaktionen und genetische Variationen vorhersagen, indem es evolutionäre Muster in genetischen Sequenzen analysierte. Allerdings wurde deutlich, dass das Modell seine Grenzen hatte, als Wissenschaftler es auf komplexere eukaryotische Genome anwenden wollten. Evo 1 hatte Schwierigkeiten mit der Einzel-Nukleotid-Auflösung über lange DNA-Sequenzen und war rechenintensiv für größere Genome. Diese Herausforderungen führten zu dem Bedarf an einem fortgeschritteneren Modell, das biologische Daten über mehrere Skalen integrieren kann.
EVO 2: Ein grundlegendes Modell für die genetische Modellierung
Aufbauend auf den Erfahrungen, die mit Evo-1 gesammelt wurden, starteten Forscher im Februar 2025 Evo 2, um das Feld der biologischen Sequenzmodellierung voranzutreiben. Trainiert auf einer atemberaubenden 9,3 Billionen DNA-Basenpaaren, hat das Modell gelernt, die funktionellen Konsequenzen genetischer Variationen über alle Domänen des Lebens zu verstehen und vorherzusagen, einschließlich Bakterien, Archaeen, Pflanzen, Pilzen und Tieren. Mit über 40 Milliarden Parametern kann Evo-2s Modell eine beispiellose Sequenzlänge von bis zu 1 Million Basenpaaren verarbeiten, was vorherigen Modellen, einschließlich Evo-1, nicht möglich war.
Was Evo 2 von seinen Vorgängern unterscheidet, ist seine Fähigkeit, nicht nur die DNA-Sequenzen, sondern auch die Interaktionen zwischen DNA, RNA und Proteinen – die gesamte zentrale Dogma der Molekularbiologie – zu modellieren. Dies ermöglicht es Evo 2, die Auswirkungen genetischer Mutationen genau vorherzusagen, von den kleinsten Nukleotid-Änderungen bis hin zu größeren Struktur-Variationen, auf eine Weise, die zuvor unmöglich war.
Ein wichtiger Aspekt von Evo 2 ist seine starke Zero-Shot-Vorhersage-Fähigkeit, die es ermöglicht, die funktionellen Effekte von Mutationen ohne task-spezifische Feinabstimmung vorherzusagen. Zum Beispiel kann es klinisch signifikante BRCA1-Varianten, ein wichtiger Faktor in der Brustkrebsforschung, durch die Analyse von DNA-Sequenzen allein genau klassifizieren.
Potenzielle Anwendungen in der Biomolekularbiologie
Evo 2s Fähigkeiten eröffnen neue Möglichkeiten in der Genetik, Molekularbiologie und Biotechnologie. Einige der vielversprechendsten Anwendungen umfassen:
- Gesundheitswesen und Arzneimittelentwicklung: Evo 2 kann vorhersagen, welche Gen-Varianten mit bestimmten Krankheiten assoziiert sind, und so die Entwicklung zielgerichteter Therapien unterstützen. Zum Beispiel erreichte Evo 2 in Tests mit Varianten des brustkrebs-assoziierten Gens BRCA1 eine Genauigkeit von über 90% bei der Vorhersage, welche Mutationen harmlos oder potenziell pathogen sind. Solche Erkenntnisse könnten die Entwicklung neuer Medikamente und personalisierter Behandlungen beschleunigen.
- Synthetische Biologie und Gentechnik: Evo 2s Fähigkeit, ganze Genome zu generieren, eröffnet neue Möglichkeiten bei der Entwicklung synthetischer Organismen mit bestimmten Eigenschaften. Forscher können Evo 2 verwenden, um Gene mit bestimmten Funktionen zu entwerfen, und so die Entwicklung von Biokraftstoffen, umweltfreundlichen Chemikalien und neuen Therapien vorantreiben.
- Agrarbiotechnologie: Es kann verwendet werden, um gentechnisch veränderte Pflanzen mit verbesserten Eigenschaften wie Dürre-Toleranz oder Schädlingsresistenz zu entwickeln, und so zur globalen Nahrungsmittelsicherheit und nachhaltigen Landwirtschaft beitragen.
- Umweltwissenschaft: Evo 2 kann verwendet werden, um Biokraftstoffe zu entwickeln oder Proteine zu entwerfen, die Umweltverschmutzungen wie Öl oder Plastik abbauen, und so zum Umweltschutz beitragen.
Herausforderungen und zukünftige Richtungen
Trotz seiner beeindruckenden Fähigkeiten steht Evo 2 vor Herausforderungen. Ein wichtiger Hürde ist die rechenintensive Komplexität, die mit der Ausbildung und dem Betrieb des Modells verbunden ist. Mit einem Kontextfenster von 1 Million Basenpaaren und 40 Milliarden Parametern benötigt Evo 2 erhebliche Rechenressourcen, um effektiv zu funktionieren. Dies macht es schwierig für kleinere Forschungsteams, sein volles Potenzial ohne Zugang zu Hochleistungsrecheninfrastrukturen auszuschöpfen.
Darüber hinaus gibt es noch viel zu lernen, wie man Evo 2 verwenden kann, um neue biologische Systeme von Grund auf zu entwerfen. Die Generierung realistischer biologischer Sequenzen ist nur der erste Schritt; die eigentliche Herausforderung liegt darin, zu verstehen, wie man diese Macht nutzen kann, um funktionale, nachhaltige biologische Systeme zu schaffen.
Zugänglichkeit und Demokratisierung von KI in der Genetik
Ein der aufregendsten Aspekte von Evo 2 ist seine Open-Source-Verfügbarkeit. Um den Zugang zu fortschrittlichen genetischen Modellierungstools zu demokratisieren, hat NVIDIA die Modellparameter, Trainingscode und Daten öffentlich zugänglich gemacht. Dieser Open-Access-Ansatz ermöglicht es Forschern auf der ganzen Welt, Evo 2s Fähigkeiten zu erkunden und zu erweitern, und beschleunigt so die Innovation in der wissenschaftlichen Gemeinschaft.
Das Fazit
Evo 2 ist ein bedeutender Fortschritt in der genetischen Modellierung, der KI nutzt, um die komplexe genetische Sprache des Lebens zu entschlüsseln. Seine Fähigkeit, DNA-Sequenzen und ihre Interaktionen mit RNA und Proteinen zu modellieren, eröffnet neue Möglichkeiten in der Gesundheitsversorgung, Arzneimittelentwicklung, synthetischer Biologie und Umweltwissenschaft. Evo 2 kann genetische Mutationen vorhersagen und neue biologische Sequenzen entwerfen, und bietet so ein transformierendes Potenzial für personalisierte Medizin und nachhaltige Lösungen. Allerdings stellt seine rechenintensive Komplexität eine Herausforderung dar, insbesondere für kleinere Forschungsteams. Durch die Open-Source-Verfügbarkeit von Evo 2 ermöglicht NVIDIA es Forschern auf der ganzen Welt, seine Fähigkeiten zu erkunden und zu erweitern, und treibt so die Innovation in der Genetik und Biotechnologie voran. Wenn die Technologie weiterentwickelt wird, hat sie das Potenzial, die Zukunft der biologischen Wissenschaften und des Umweltschutzes zu verändern.












