Intelligenza artificiale
Da Evo 1 a Evo 2: come NVIDIA sta ridefinendo la ricerca genomica e le innovazioni biologiche guidate dall’AI
Immagina un mondo in cui potremmo prevedere il comportamento della vita analizzando solo una sequenza di lettere. Questo non è fantascienza o un mondo magico, ma un mondo reale in cui gli scienziati hanno cercato di raggiungere questo obiettivo per anni. Queste sequenze, composte da quattro nucleotidi (A, T, C e G), contengono le istruzioni fondamentali per la vita sulla Terra, dalle più piccole microrganismi ai più grandi mammiferi. Decodificare queste sequenze ha il potenziale per sbloccare processi biologici complessi, trasformando campi come la medicina personalizzata e la sostenibilità ambientale.
Tuttavia, nonostante questo enorme potenziale, decodificare anche i genomi microbiali più semplici è un compito altamente complesso. Questi genomi sono composti da milioni di paia di basi di DNA che regolano le interazioni tra DNA, RNA e proteine – i tre elementi chiave nel dogma centrale della biologia molecolare. Questa complessità esiste a molti livelli, dalle molecole individuali ai genomi interi, creando un vasto campo di informazioni genetiche che si sono evolute nel corso di miliardi di anni.
Gli strumenti computazionali tradizionali hanno faticato a gestire la complessità delle sequenze biologiche. Ma con l’avvento dell’AI generativa, è ora possibile scalare su trilioni di sequenze e comprendere relazioni complesse tra sequenze di token. Sulla base di questo avanzamento, i ricercatori dell’Istituto Arc, dell’Università di Stanford e di NVIDIA hanno lavorato per costruire un sistema di intelligenza artificiale in grado di comprendere le sequenze biologiche come i grandi modelli di linguaggio comprendono il testo umano. Ora, hanno fatto un’innovazione rivoluzionaria creando un modello che cattura sia la natura multimodale del dogma centrale che le complessità dell’evoluzione. Questa innovazione potrebbe portare a prevedere e progettare nuove sequenze biologiche, dalle molecole individuali ai genomi interi. In questo articolo, esploreremo come funziona questa tecnologia, le sue potenziali applicazioni, le sfide che affronta e il futuro della modellazione genomica.
EVO 1: un modello pionieristico nella modellazione genomica
Questa ricerca ha attirato l’attenzione alla fine del 2024, quando NVIDIA e i suoi collaboratori hanno introdotto Evo 1, un modello rivoluzionario per l’analisi e la generazione di sequenze biologiche attraverso DNA, RNA e proteine. Addestrato su 2,7 milioni di genomi procarioti e fagi, per un totale di 300 miliardi di token di nucleotidi, il modello si è concentrato sull’integrazione del dogma centrale della biologia molecolare, modellando il flusso di informazioni genetiche dal DNA all’RNA alle proteine. La sua architettura StripedHyena, un modello ibrido che utilizza filtri convoluzionali e porte, ha gestito efficientemente contesti lunghi fino a 131.072 token. Questo design ha permesso a Evo 1 di collegare piccoli cambiamenti di sequenza a effetti più ampi a livello di sistema e organismo, colmando il divario tra biologia molecolare e genomica evolutiva.
Evo 1 è stato il primo passo nella modellazione computazionale dell’evoluzione biologica. Ha previsto con successo le interazioni molecolari e le variazioni genetiche analizzando i modelli evolutivi nelle sequenze genetiche. Tuttavia, quando gli scienziati hanno cercato di applicarlo a genomi eucariotici più complessi, le limitazioni del modello sono diventate evidenti. Evo 1 ha faticato con la risoluzione del singolo nucleotide su lunghe sequenze di DNA ed è stato computazionalmente costoso per genomi più grandi. Queste sfide hanno portato alla necessità di un modello più avanzato in grado di integrare dati biologici su più scale.
EVO 2: un modello fondamentale per la modellazione genomica
Sulla base delle lezioni apprese da Evo-1, i ricercatori hanno lanciato Evo 2 nel febbraio 2025, avanzando nel campo della modellazione di sequenze biologiche. Addestrato su un numero impressionante di 9,3 trilioni di paia di basi di DNA, il modello ha imparato a comprendere e prevedere le conseguenze funzionali delle variazioni genetiche in tutti i domini della vita, compresi batteri, archea, piante, funghi e animali. Con oltre 40 miliardi di parametri, il modello di Evo-2 può gestire una lunghezza di sequenza senza precedenti di fino a 1 milione di paia di basi, qualcosa che i modelli precedenti, compreso Evo-1, non potevano gestire.
Ciò che distingue Evo 2 dai suoi predecessori è la sua capacità di modellare non solo le sequenze di DNA, ma anche le interazioni tra DNA, RNA e proteine – l’intero dogma centrale della biologia molecolare. Ciò consente a Evo 2 di prevedere con precisione l’impatto delle mutazioni genetiche, dalle più piccole modifiche di nucleotidi a variazioni strutturali più grandi, in modi che erano precedentemente impossibili.
Una caratteristica chiave di Evo 2 è la sua forte capacità di previsione zero-shot, che gli consente di prevedere gli effetti funzionali delle mutazioni senza richiedere un addestramento specifico per attività. Ad esempio, classifica con precisione le varianti clinicamente significative del gene BRCA1, un fattore cruciale nella ricerca sul cancro al seno, analizzando solo le sequenze di DNA.
Potenziali applicazioni nelle scienze biomolecolari
Le capacità di Evo 2 aprono nuove frontiere nella genomica, nella biologia molecolare e nella biotecnologia. Alcune delle applicazioni più promettenti includono:
- Sanità e scoperta di farmaci: Evo 2 può prevedere quali varianti genetiche sono associate a specifiche malattie, aiutando nello sviluppo di terapie mirate. Ad esempio, in test con varianti del gene associato al cancro al seno BRCA1, Evo 2 ha raggiunto oltre il 90% di accuratezza nella previsione di quali mutazioni sono benigne o potenzialmente patogene. Tali informazioni potrebbero accelerare lo sviluppo di nuovi farmaci e trattamenti personalizzati.
- Biologia sintetica e ingegneria genetica: la capacità di Evo 2 di generare interi genomi apre nuove strade nella progettazione di organismi sintetici con caratteristiche desiderate. I ricercatori possono utilizzare Evo 2 per ingegnerizzare geni con funzioni specifiche, avanzando lo sviluppo di biocarburanti, sostanze chimiche ecocompatibili e nuovi trattamenti terapeutici.
- Biotecnologia agricola: può essere utilizzato per progettare colture geneticamente modificate con caratteristiche migliorate come resistenza alla siccità o resistenza ai parassiti, contribuendo alla sicurezza alimentare globale e alla sostenibilità agricola.
- Scienza ambientale: Evo 2 può essere applicato per progettare biocarburanti o ingegnerizzare proteine che decompongono inquinanti ambientali come petrolio o plastica, contribuendo agli sforzi di sostenibilità.
Sfide e direzioni future
Nonostante le sue impressionanti capacità, Evo 2 affronta sfide. Un ostacolo chiave è la complessità computazionale coinvolta nell’addestramento e nell’esecuzione del modello. Con una finestra di contesto di 1 milione di paia di basi e 40 miliardi di parametri, Evo 2 richiede risorse computazionali significative per funzionare efficacemente. Ciò rende difficile per i piccoli team di ricerca sfruttare appieno il suo potenziale senza accesso a infrastrutture di calcolo ad alte prestazioni.
Inoltre, mentre Evo 2 eccelle nella previsione degli effetti delle mutazioni genetiche, c’è ancora molto da imparare su come utilizzarlo per progettare sistemi biologici nuovi da zero. Generare sequenze biologiche realistiche è solo il primo passo; la vera sfida consiste nel capire come utilizzare questo potere per creare sistemi biologici funzionali e sostenibili.
Accessibilità e democratizzazione dell’AI nella genomica
Uno degli aspetti più emozionanti di Evo 2 è la sua disponibilità open-source. Per democratizzare l’accesso agli strumenti di modellazione genomica avanzati, NVIDIA ha reso pubblicamente disponibili i parametri del modello, il codice di addestramento e i set di dati. Questo approccio open-access consente ai ricercatori di tutto il mondo di esplorare e ampliare le capacità di Evo 2, accelerando l’innovazione nella comunità scientifica.
Il punto fondamentale
Evo 2 rappresenta un significativo avanzamento nella modellazione genomica, utilizzando l’AI per decodificare il linguaggio genetico complesso della vita. La sua capacità di modellare le sequenze di DNA e le loro interazioni con RNA e proteine apre nuove possibilità nella sanità, nella scoperta di farmaci, nella biologia sintetica e nella scienza ambientale. Evo 2 può prevedere le mutazioni genetiche e progettare nuove sequenze biologiche, offrendo un potenziale trasformativo per la medicina personalizzata e le soluzioni sostenibili. Tuttavia, la sua complessità computazionale presenta sfide, soprattutto per i piccoli team di ricerca. Rendendo Evo 2 open-source, NVIDIA sta abilitando i ricercatori di tutto il mondo a esplorare e ampliare le sue capacità, guidando l’innovazione nella genomica e nella biotecnologia. Man mano che la tecnologia continua a evolversi, ha il potenziale per ridisegnare il futuro delle scienze biologiche e della sostenibilità ambientale. smaller research teams. By making Evo 2 open-source, NVIDIA is enabling researchers worldwide to explore and expand its capabilities, driving innovation in genomics and biotechnology. As technology continues to evolve, it holds the potential to reshape the future of biological sciences and environmental sustainability.












