Umelá inteligencia
Od Evo 1 po Evo 2: Ako NVIDIA predefinuje genomický výskum a biologické inovácie poháňané AI

Predstavte si svet, v ktorom by sme mohli predpovedať správanie života len analýzou sledu písmen. Toto nie je sci-fi ani magický svet, ale skutočný svet, v ktorom sa vedci už roky snažia dosiahnuť tento cieľ. Tieto sekvencie, tvorené štyrmi nukleotidmi (A, T, C a G), obsahujú základné inštrukcie pre život na Zemi, od najmenšieho mikróba až po najväčšieho cicavca. Dekódovanie týchto sekvencií má potenciál odomknúť zložité biologické procesy, transformujúce oblasti ako personalizovaná medicína a udržateľnosť životného prostredia.
Napriek tomuto obrovskému potenciálu je však dekódovanie aj tých najjednoduchších mikrobiálnych genómov vysoko komplexnou úlohou. Tieto genómy pozostávajú z miliónov párov báz DNA, ktoré regulujú interakcie medzi DNA, RNA a proteínmi – tri kľúčové prvky centrálnej dogmy molekulárnej biológie. Táto zložitosť existuje na viacerých úrovniach, od jednotlivých molekúl až po celé genómy, čím vzniká obrovské pole genetických informácií, ktoré sa vyvíjali v priebehu miliárd rokov.
Tradičné výpočtové nástroje mali problém zvládnuť zložitosť biologických sekvencií. Ale s nárastom generatívnej AI je teraz možné škálovať viac ako bilióny sekvencií a pochopiť zložité vzťahy medzi sekvenciami tokenov. Na základe tohto pokroku výskumníci z Arc Institute, Stanfordskej univerzity a NVIDIA pracujú na vybudovaní systému AI, ktorý dokáže porozumieť biologickým sekvenciám, ako napríklad veľké jazykové modely rozumejú ľudskému textu. Teraz urobili prelomový vývoj vytvorením modelu, ktorý zachytáva multimodálnu povahu centrálnej dogmy a zložitosť evolúcie. Táto inovácia by mohla viesť k predpovedaniu a navrhovaniu nových biologických sekvencií, od jednotlivých molekúl až po celé genómy. V tomto článku preskúmame, ako táto technológia funguje, jej potenciálne aplikácie, výzvy, ktorým čelí, a budúcnosť genómového modelovania.
EVO 1: Priekopnícky model v genomickom modelovaní
Tento výskum získal pozornosť koncom roka 2024, keď spoločnosť NVIDIA a jej spolupracovníci predstavili Tu sú 1, prelomový model na analýzu a generovanie biologických sekvencií naprieč DNA, RNA a proteínmi. Model trénovaný na 2.7 miliónoch prokaryotických a fágových genómov, celkovo 300 miliárd nukleotidových tokenov, sa zameral na integráciu centrálnej dogmy molekulárnej biológie, modelovanie toku genetických informácií z DNA cez RNA do proteínov. Jeho architektúra StripedHyena, hybridný model využívajúci konvolučné filtre a brány, efektívne zvládal dlhé kontexty až 131,072 1 tokenov. Tento dizajn umožnil Evo XNUMX prepojiť malé sekvenčné zmeny so širšími účinkami na úrovni celého systému a organizmu, čím preklenul priepasť medzi molekulárnou biológiou a evolučnou genomikou.
Evo 1 bol prvým krokom vo výpočtovom modelovaní biologickej evolúcie. Úspešne predpovedal molekulárne interakcie a genetické variácie analýzou evolučných vzorcov v genetických sekvenciách. Keď sa však vedci zamerali na jeho aplikáciu na zložitejšie eukaryotické genómy, objasnili sa obmedzenia modelu. Evo 1 zápasil s rozlíšením jedného nukleotidu cez dlhé sekvencie DNA a bol výpočtovo nákladný pre väčšie genómy. Tieto výzvy viedli k potrebe pokročilejšieho modelu schopného integrovať biologické údaje vo viacerých mierkach.
EVO 2: Základný model pre genomické modelovanie
Výskumníci spustili na základe skúseností získaných z Evo-1 Tu sú 2 vo februári 2025, čím napreduje v oblasti modelovania biologických sekvencií. vyškolení na ohromujúcich 9.3 biliónoch párov báz DNA sa model naučil porozumieť a predpovedať funkčné dôsledky genetických variácií vo všetkých oblastiach života vrátane baktérií, archeí, rastlín, húb a zvierat. S viac ako 40 miliardami parametrov dokáže model Evo-2 zvládnuť bezprecedentnú dĺžku sekvencie až 1 milión párov báz, čo predchádzajúce modely, vrátane Evo-1, nedokázali zvládnuť.
To, čo odlišuje Evo 2 od svojich predchodcov, je jeho schopnosť modelovať nielen sekvencie DNA, ale aj interakcie medzi DNA, RNA a proteínmi – celá centrálna dogma molekulárnej biológie. To umožňuje Evo 2 presne predpovedať vplyv genetických mutácií, od najmenších zmien nukleotidov až po väčšie štrukturálne variácie, spôsobmi, ktoré boli predtým nemožné.
Kľúčovou vlastnosťou Evo 2 je jeho silná predikčná schopnosť zero-shot, ktorá mu umožňuje predpovedať funkčné účinky mutácií bez potreby dolaďovania špecifického pre danú úlohu. Napríklad presne klasifikuje klinicky významné varianty BRCA1, kľúčový faktor vo výskume rakoviny prsníka, a to samotnou analýzou sekvencií DNA.
Potenciálne aplikácie v biomolekulárnych vedách
Schopnosti Evo 2 otvárajú nové hranice v genomike, molekulárnej biológii a biotechnológii. Niektoré z najsľubnejších aplikácií zahŕňajú:
- Zdravotná starostlivosť a objavovanie liekov: Evo 2 dokáže predpovedať, ktoré génové varianty sú spojené so špecifickými ochoreniami, čo pomáha pri vývoji cielených terapií. napr. v testoch s variantmi génu BRCA1 spojeného s rakovinou prsníka dosiahol Evo 2 viac ako 90% presnosť pri predpovedaní, ktoré mutácie sú benígne v porovnaní s potenciálne patogénnymi. Takéto poznatky by mohli urýchliť vývoj nových liekov a personalizovanej liečby.
- Syntetická biológia a genetické inžinierstvo: Schopnosť Evo 2 vytvárať celé genómy otvára nové cesty pri navrhovaní syntetických organizmov s požadovanými vlastnosťami. Výskumníci môžu využiť Evo 2 na inžinierstvo génov so špecifickými funkciami, čím napredujú vo vývoji biopalív, chemikálií šetrných k životnému prostrediu a nových terapeutík.
- Poľnohospodárska biotechnológia: Môže sa použiť na navrhovanie geneticky modifikovaných plodín so zlepšenými vlastnosťami, ako je odolnosť voči suchu alebo odolnosť voči škodcom, čo prispieva ku globálnej potravinovej bezpečnosti a udržateľnosti poľnohospodárstva.
- Enviromentálna veda: Evo 2 možno použiť na navrhovanie biopalív alebo inžinierskych proteínov, ktoré rozkladajú látky znečisťujúce životné prostredie, ako je ropa alebo plasty, čím prispievajú k úsiliu o udržateľnosť.
Výzvy a budúce smery
Napriek svojim pôsobivým schopnostiam čelí Evo 2 výzvam. Jednou z kľúčových prekážok je výpočtová zložitosť spojená s tréningom a prevádzkou modelu. S kontextovým oknom s 1 miliónom párov báz a 40 miliardami parametrov vyžaduje Evo 2 značné výpočtové zdroje na efektívne fungovanie. To sťažuje menším výskumným tímom plne využiť jeho potenciál bez prístupu k vysokovýkonnej počítačovej infraštruktúre.
Okrem toho, zatiaľ čo Evo 2 vyniká v predpovedaní účinkov genetickej mutácie, stále sa máme čo učiť o tom, ako ho použiť na navrhovanie nových biologických systémov od začiatku. Generovanie realistických biologických sekvencií je len prvým krokom; skutočná výzva spočíva v pochopení toho, ako využiť túto silu na vytvorenie funkčných, udržateľných biologických systémov.
Dostupnosť a demokratizácia AI v genomike
Jedným z najzaujímavejších aspektov Evo 2 je jeho open source dostupnosť. Na demokratizáciu prístupu k pokročilým nástrojom na modelovanie genómu spoločnosť NVIDIA verejne sprístupnila parametre modelu, tréningový kód a súbory údajov. Tento prístup s otvoreným prístupom umožňuje výskumníkom z celého sveta skúmať a rozširovať možnosti Evo 2, čo urýchľuje inovácie vo vedeckej komunite.
Bottom Line
Evo 2 predstavuje významný pokrok v genómovom modelovaní, ktorý využíva AI na dekódovanie zložitého genetického jazyka života. Jeho schopnosť modelovať sekvencie DNA a ich interakcie s RNA a proteínmi otvára nové možnosti v zdravotníctve, objavovaní liekov, syntetickej biológii a environmentalistike. Evo 2 dokáže predpovedať genetické mutácie a navrhnúť nové biologické sekvencie, čím ponúka transformačný potenciál pre personalizovanú medicínu a udržateľné riešenia. Jeho výpočtová náročnosť však predstavuje výzvy, najmä pre menšie výskumné tímy. Vytvorením open source Evo 2 umožňuje NVIDIA výskumníkom na celom svete skúmať a rozširovať jeho schopnosti, čo podporuje inovácie v oblasti genomiky a biotechnológie. Keďže technológia sa neustále vyvíja, má potenciál pretvoriť budúcnosť biologických vied a udržateľnosti životného prostredia.