Connect with us

Google DeepMind presenta AlphaGenome per decodificare la funzione del genoma umano

Sanità

Google DeepMind presenta AlphaGenome per decodificare la funzione del genoma umano

mm

Google DeepMind ha rilasciato AlphaGenome il 28 gennaio, un modello di intelligenza artificiale che prevede come le sequenze di DNA si traducono in funzioni biologiche, elaborando fino a un milione di paia di basi contemporaneamente e superando i modelli esistenti in 25 dei 26 benchmark di previsione degli effetti delle varianti.

Il modello, pubblicato su Nature e dettagliato sul blog di DeepMind, rappresenta un notevole progresso nella genomica computazionale. Mentre i modelli precedenti richiedevano sistemi separati per diversi compiti di previsione, AlphaGenome gestisce tutto, dalla espressione genica all’accessibilità della cromatina, in un’unica architettura unificata.

“AlphaGenome può esaminare una lunga porzione di DNA e prevedere dove si trovano gli elementi regolatori critici e i loro effetti a valle sull’espressione genica”, ha scritto il team di DeepMind nel loro annuncio. La finestra di contesto di un milione di token del modello gli consente di catturare le interazioni a lungo raggio tra regioni di DNA distanti che influenzano come i geni vengono attivati e disattivati.

Funzionamento

AlphaGenome combina due architetture di reti neurali: una rete convoluzionale 1D di tipo Borzoi per l’elaborazione delle sequenze di DNA grezzo e un’architettura U-Net adattata dalla segmentazione delle immagini. Questo approccio ibrido consente al modello di gestire sia la natura sequenziale del DNA che le complesse relazioni spaziali tra gli elementi regolatori.

I dati di training coprono circa 7.000 tracce genomiche dei consorzi ENCODE e FANTOM – enormi sforzi collaborativi che hanno catalogato gli elementi funzionali in tutto il genoma umano. Il modello apprende a prevedere i segnali da saggi sperimentali che misurano l’espressione genica, l’accessibilità del DNA, il legame delle proteine e le modifiche della cromatina.

Per i ricercatori, il valore pratico risiede nella previsione degli effetti delle varianti. Quando il genoma di un paziente contiene una mutazione, i clinici devono sapere se quella variante è importante. AlphaGenome può prevedere come un singolo cambiamento di nucleotide influenzi l’intero paesaggio regolatorio, segnalando potenzialmente le varianti che causano malattie che i metodi attuali potrebbero non rilevare.

Il modello ha ottenuto risultati solidi nei benchmark che testano la sua capacità di prevedere come le varianti genetiche influenzano l’espressione genica e l’attività degli elementi regolatori. Sui loci quantitativi dei tratti di espressione (eQTL) – varianti note per influenzare i livelli di espressione genica – AlphaGenome ha eguagliato o superato modelli specializzati addestrati specificamente per quei compiti.

Disponibilità open source

DeepMind ha rilasciato il codice sorgente di AlphaGenome su GitHub per uso non commerciale, continuando il modello del laboratorio di rendere disponibili pubblicamente gli strumenti fondamentali di biologia. Il repository include i pesi del modello, il codice di inferenza e la documentazione per l’esecuzione di previsioni su sequenze personalizzate.

Il rilascio open segue il modello stabilito da AlphaFold, lo strumento di DeepMind per la previsione della struttura delle proteine, utilizzato da oltre 3 milioni di ricercatori dal suo rilascio nel 2021. AlphaGenome affronta un problema complementare: mentre AlphaFold prevede l’aspetto delle proteine, AlphaGenome prevede quando e dove i geni producono quelle proteine.

Il CEO di Google DeepMind, Demis Hassabis, ha posizionato la biologia come un dominio di applicazione principale per le capacità di intelligenza artificiale del laboratorio. Il lavoro sulla genomica estende le ambizioni di DeepMind oltre l’AI conversazionale e i modelli linguistici che alimentano prodotti come Gemini, applicando innovazioni architettoniche simili a problemi scientifici.

Perché è importante

Il genoma umano contiene circa 3 miliardi di paia di basi, ma solo circa l’1,5% codifica direttamente per le proteine. Il restante 98,5% – a lungo considerato “DNA spazzatura” – contiene elementi regolatori che controllano quando, dove e quanto i geni vengono espressi. Le mutazioni in queste regioni non codificanti causano malattie, ma identificare quali varianti sono importanti è stato straordinariamente difficile.

I metodi tradizionali richiedono esperimenti costosi e lunghe attese per testare singole varianti. I modelli di apprendimento automatico come AlphaGenome possono esaminare migliaia di varianti in modo computazionale, dando priorità a quelle che meritano un follow-up sperimentale. Per la diagnosi di malattie rare, dove i pazienti spesso portano varianti nuove con effetti sconosciuti, questa capacità potrebbe accelerare il percorso dalla sequenza alla diagnosi.

La capacità del modello di elaborare contesti di un milione di paia di basi è particolarmente significativa. Gli elementi regolatori genici possono trovarsi a centinaia di migliaia di paia di basi di distanza dai geni che controllano, comunicando attraverso la complessa piegatura tridimensionale del DNA. I modelli precedenti con finestre di contesto più brevi non potevano catturare queste dipendenze a lungo raggio.

AlphaGenome si unisce a un ecosistema in crescita di strumenti di intelligenza artificiale che trasformano la ricerca biologica. La previsione della struttura delle proteine, la scoperta di farmaci e ora la regolazione genica sono sempre più problemi trattabili con l’apprendimento automatico. Per la comunità di ricerca genetica, la disponibilità aperta di questi modelli democratizza l’accesso alle capacità computazionali che in precedenza erano limitate ai laboratori ben finanziati.

I limiti del modello sono anche chiari dalla presentazione di DeepMind. Mentre AlphaGenome eccelle nella previsione delle misurazioni sperimentali, tradurre queste previsioni in risultati clinici richiede ulteriore convalida. Il divario tra la previsione dell’accessibilità della cromatina e la previsione del rischio di malattia rimane sostanziale.

Per ora, AlphaGenome serve come strumento di ricerca – uno che potrebbe accelerare la comprensione di come funziona il genoma, anche se le applicazioni cliniche rimangono anni lontane. I 3.000 scienziati di 160 paesi che già utilizzano il modello suggeriscono che la comunità di ricerca vede un valore immediato in ciò che DeepMind ha costruito.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.