Kunstmatige intelligentie
Van Evo 1 tot Evo 2: Hoe NVIDIA genomics en AI-gedreven biologische innovaties opnieuw definieert
Stel je een wereld voor waarin we het gedrag van levende wezens kunnen voorspellen door alleen maar een reeks letters te analyseren. Dit is geen sciencefiction of een magische wereld, maar een echte wereld waar wetenschappers al jaren naar streven. Deze sequenties, bestaande uit vier nucleotiden (A, T, C en G), bevatten de fundamentele instructies voor het leven op aarde, van de kleinste microbe tot de grootste zoogdier. Het ontcijferen van deze sequenties heeft het potentieel om complexe biologische processen te ontsluiten, waardoor gebieden zoals persoonlijke geneeskunde en milieuduurzaamheid getransformeerd kunnen worden.
Desondanks heeft het ontcijferen van zelfs de eenvoudigste microbiële genomen een uiterst complexe taak. Deze genomen bestaan uit miljoenen DNA-basenparen die de interacties tussen DNA, RNA en proteïnen reguleren – de drie sleutelelementen in de centrale dogma van de moleculaire biologie. Deze complexiteit bestaat op meerdere niveaus, van individuele moleculen tot complete genomen, waardoor een enorm veld van genetische informatie ontstaat dat zich over miljarden jaren heeft ontwikkeld.
Traditionele computationele tools hebben moeite om de complexiteit van biologische sequenties aan te kunnen. Maar met de opkomst van generatieve AI is het nu mogelijk om over triljoenen sequenties te schalen en complexe relaties over sequenties van tokens te begrijpen. Op basis van deze vooruitgang werken onderzoekers van het Arc Institute, Stanford University en NVIDIA aan een AI-systeem dat biologische sequenties kan begrijpen, net zoals grote taalmodellen menselijke tekst begrijpen. Nu hebben ze een baanbrekende ontwikkeling gemaakt door een model te creëren dat zowel de multimodale aard van de centrale dogma als de complexiteit van de evolutie vastlegt. Deze innovatie kan leiden tot het voorspellen en ontwerpen van nieuwe biologische sequenties, van individuele moleculen tot complete genomen. In dit artikel zullen we onderzoeken hoe deze technologie werkt, de potentiële toepassingen, de uitdagingen en de toekomst van genomics-modellering.
EVO 1: Een pioniersmodel in genomics-modellering
Dit onderzoek kreeg aandacht eind 2024 toen NVIDIA en zijn medewerkers Evo 1 introduceerden, een baanbrekend model voor het analyseren en genereren van biologische sequenties over DNA, RNA en proteïnen. Getraind op 2,7 miljoen prokaryotische en fagegenomen, in totaal 300 miljard nucleotide-tokens, richtte het model zich op het integreren van de centrale dogma van de moleculaire biologie, het modelleren van de stroom van genetische informatie van DNA naar RNA naar proteïnen. De StripedHyena-architectuur, een hybride model dat convolutionele filters en poorten gebruikt, kon efficiënt omgaan met lange contexten van maximaal 131.072 tokens. Dit ontwerp stelde Evo 1 in staat om kleine sequentiewijzigingen te koppelen aan bredere systeemwijde en organismen-niveau-effecten, waardoor de kloof tussen moleculaire biologie en evolutionaire genomics werd overbrugd.
Evo 1 was de eerste stap in computationeel modelleren van biologische evolutie. Het voorspelde met succes moleculaire interacties en genetische variaties door evolutionaire patronen in genetische sequenties te analyseren. Echter, toen wetenschappers het wilden toepassen op complexere eukaryotische genomen, werden de beperkingen van het model duidelijk. Evo 1 had moeite met enkel-nucleotide-resolutie over lange DNA-sequenties en was computationeel duur voor grotere genomen. Deze uitdagingen leidden tot de behoefte aan een meer geavanceerd model dat biologische gegevens over meerdere schalen kon integreren.
EVO 2: Een fundamenteel model voor genomics-modellering
Op basis van de lessen die zijn geleerd uit Evo-1, lanceerden onderzoekers in februari 2025 Evo 2, waardoor het veld van biologische sequentiemodellering werd verbeterd. Getraind op een verbijsterende 9,3 biljoen DNA-basenparen, heeft het model geleerd om de functionele gevolgen van genetische variatie over alle domeinen van het leven te begrijpen en voorspellen, van bacteriën tot dieren. Met meer dan 40 miljard parameters kan het Evo-2-model een ongekende sequentielengte van maximaal 1 miljoen basenparen aan, iets dat eerdere modellen, waaronder Evo-1, niet konden doen.
Wat Evo 2 onderscheidt van zijn voorgangers is zijn vermogen om niet alleen DNA-sequenties te modelleren, maar ook de interacties tussen DNA, RNA en proteïnen – de hele centrale dogma van de moleculaire biologie. Dit stelt Evo 2 in staat om de impact van genetische mutaties nauwkeurig te voorspellen, van de kleinste nucleotide-wijzigingen tot grotere structurele variaties, op manieren die eerder onmogelijk waren.
Een belangrijke functie van Evo 2 is zijn sterke zero-shot-voorspellingscapaciteit, waardoor het de functionele effecten van mutaties kan voorspellen zonder dat hiervoor specifieke fine-tuning nodig is. Zo classificeert het bijvoorbeeld klinisch significante BRCA1-varianten, een cruciale factor in borstkankeronderzoek, door alleen maar DNA-sequenties te analyseren.
Mogelijke toepassingen in biomoleculaire wetenschappen
De mogelijkheden van Evo 2 openen nieuwe frontiers in genomics, moleculaire biologie en biotechnologie. Enkele van de meest veelbelovende toepassingen zijn:
- Gezondheidszorg en geneesmiddelontdekking: Evo 2 kan voorspellen welke genvarianten geassocieerd zijn met specifieke ziekten, waardoor de ontwikkeling van gerichte therapieën wordt ondersteund. Zo behaalde Evo 2 in tests met varianten van het borstkanker-geassocieerde gen BRCA1 een nauwkeurigheid van meer dan 90% bij het voorspellen van welke mutaties goedaardig of mogelijk pathogeen zijn. Dergelijke inzichten kunnen de ontwikkeling van nieuwe geneesmiddelen en persoonlijke behandelingen versnellen.
- Synthetische biologie en genetische modificatie: De mogelijkheid van Evo 2 om complete genomen te genereren, opent nieuwe wegen voor het ontwerpen van synthetische organismen met gewenste eigenschappen. Onderzoekers kunnen Evo 2 gebruiken om genen met specifieke functies te ontwerpen, waardoor de ontwikkeling van biobrandstoffen, milieuvriendelijke chemicaliën en nieuwe therapeutica wordt gestimuleerd.
- Landbouwbiotechnologie: Het kan worden gebruikt om genetisch gemodificeerde gewassen te ontwerpen met verbeterde eigenschappen zoals droogteresistentie of plaagbestendigheid, waardoor de mondiale voedselzekerheid en landbouwduurzaamheid worden ondersteund.
- Milieukunde: Evo 2 kan worden toegepast om biobrandstoffen te ontwerpen of proteïnen te ontwikkelen die milieubezwarende stoffen zoals olie of plastic afbreken, waardoor duurzaamheidsinspanningen worden gestimuleerd.
Uitdagingen en toekomstige richtingen
Ondanks zijn indrukwekkende mogelijkheden, staat Evo 2 voor uitdagingen. Een van de belangrijkste hindernissen is de computationele complexiteit die betrokken is bij het trainen en uitvoeren van het model. Met een contextvenster van 1 miljoen basenparen en 40 miljard parameters, vereist Evo 2 aanzienlijke computationele middelen om effectief te functioneren. Dit maakt het moeilijk voor kleinere onderzoeksteams om zijn potentieel volledig te benutten zonder toegang tot high-performance-computing-infrastructuur.
Bovendien, terwijl Evo 2 uitstekend is in het voorspellen van de effecten van genetische mutaties, is er nog veel te leren over hoe het model kan worden gebruikt om nieuwe biologische systemen van scratch te ontwerpen. Het genereren van realistische biologische sequenties is slechts de eerste stap; de echte uitdaging ligt in het begrijpen van hoe deze kracht kan worden gebruikt om functionele, duurzame biologische systemen te creëren.
Toegankelijkheid en democratisering van AI in genomics
Een van de meest spannende aspecten van Evo 2 is zijn open-source beschikbaarheid. Om toegang tot geavanceerde genomics-modelleringstools te democratiseren, heeft NVIDIA modelparameters, trainingscode en datasets openbaar gemaakt. Deze open-toegangsbenadering stelt onderzoekers over de hele wereld in staat om de mogelijkheden van Evo 2 te verkennen en uit te breiden, waardoor innovatie in de wetenschappelijke gemeenschap wordt gestimuleerd.
De bodemlijn
Evo 2 is een significante vooruitgang in genomics-modellering, die AI gebruikt om de complexe genetische taal van het leven te ontcijferen. Zijn vermogen om DNA-sequenties en hun interacties met RNA en proteïnen te modelleren, opent nieuwe mogelijkheden in de gezondheidszorg, geneesmiddelontdekking, synthetische biologie en milieukunde. Evo 2 kan genetische mutaties voorspellen en nieuwe biologische sequenties ontwerpen, met een transformatief potentieel voor persoonlijke geneeskunde en duurzame oplossingen. Echter, de computationele complexiteit vormt een uitdaging, vooral voor kleinere onderzoeksteams. Door Evo 2 open-source te maken, stelt NVIDIA onderzoekers over de hele wereld in staat om de mogelijkheden van Evo 2 te verkennen en uit te breiden, waardoor innovatie in genomics en biotechnologie wordt gestimuleerd. Naarmate de technologie blijft evolueren, heeft het het potentieel om de toekomst van biologische wetenschappen en milieuduurzaamheid te herschikken. voor kleinere onderzoeksteams. Door Evo 2 open-source te maken, stelt NVIDIA onderzoekers over de hele wereld in staat om de mogelijkheden van Evo 2 te verkennen en uit te breiden, waardoor innovatie in genomics en biotechnologie wordt gestimuleerd. Als technologie blijft evolueren, heeft het het potentieel om de toekomst van biologische wetenschappen en milieuduurzaamheid te herschikken.












