Sanità
Google DeepMind presenta AlphaGenome per decodificare la funzione del genoma umano

Google DeepMind ha rilasciato AlphaGenome il 28 gennaio, un modello di intelligenza artificiale che prevede come le sequenze di DNA si traducono in funzioni biologiche, elaborando fino a un milione di paia di basi contemporaneamente e superando i modelli esistenti in 25 dei 26 benchmark di previsione degli effetti delle varianti.
Il modello, pubblicato su Nature e dettagliato nel blog di DeepMind, rappresenta un significativo avanzamento nella genomica computazionale. Mentre i modelli precedenti richiedevano sistemi separati per diversi compiti di previsione, AlphaGenome gestisce tutto, dalla espressione genica all’accessibilità della cromatina, in un’unica architettura unificata.
“AlphaGenome può esaminare una lunga porzione di DNA e prevedere dove si trovano gli elementi regolatori critici e i loro effetti a valle sull’espressione genica”, ha scritto il team di DeepMind nel loro annuncio. La finestra di contesto di un milione di token del modello gli consente di catturare le interazioni a lungo raggio tra regioni di DNA distanti che influenzano come i geni vengono attivati e disattivati.
Funzionamento
AlphaGenome combina due architetture di reti neurali: una rete convoluzionale 1D di tipo Borzoi per l’elaborazione delle sequenze di DNA grezze e un’architettura U-Net adattata dalla segmentazione delle immagini. Questo approccio ibrido consente al modello di gestire sia la natura sequenziale del DNA che le complesse relazioni spaziali tra gli elementi regolatori.
I dati di addestramento coprono circa 7.000 tracce genomiche dai consorzi ENCODE e FANTOM – enormi sforzi collaborativi che hanno catalogato gli elementi funzionali in tutto il genoma umano. Il modello apprende a prevedere i segnali dalle prove sperimentali che misurano l’espressione genica, l’accessibilità del DNA, il legame delle proteine e le modifiche della cromatina.
Per i ricercatori, il valore pratico risiede nella previsione degli effetti delle varianti. Quando il genoma di un paziente contiene una mutazione, i clinici devono sapere se quella variante è importante. AlphaGenome può prevedere come un singolo cambiamento di nucleotide influenzi l’intero paesaggio regolatorio, potenzialmente segnalando varianti che causano malattie che i metodi attuali potrebbero non rilevare.
Il modello ha ottenuto risultati solidi nei benchmark che testano la sua capacità di prevedere come le varianti genetiche influenzano l’espressione genica e l’attività degli elementi regolatori. Per i loci di tratti quantitativi dell’espressione (eQTL) – varianti note per influenzare i livelli di espressione genica – AlphaGenome ha eguagliato o superato modelli specializzati addestrati specificamente per quei compiti.
Disponibilità open source
DeepMind ha rilasciato il codice sorgente di AlphaGenome su GitHub per uso non commerciale, continuando il modello del laboratorio di rendere disponibili strumenti di biologia fondamentali pubblicamente. Il repository include i pesi del modello, il codice di inferenza e la documentazione per eseguire previsioni su sequenze personalizzate.
Il rilascio open source segue il modello stabilito da AlphaFold, lo strumento di DeepMind per la previsione della struttura delle proteine, utilizzato da oltre 3 milioni di ricercatori dal suo rilascio nel 2021. AlphaGenome affronta un problema complementare: mentre AlphaFold prevede come appaiono le proteine, AlphaGenome prevede quando e dove i geni producono quelle proteine.
Il CEO di Google DeepMind, Demis Hassabis, ha posizionato la biologia come un dominio di applicazione principale per le capacità di intelligenza artificiale del laboratorio. Il lavoro sulla genomica estende le ambizioni di DeepMind oltre l’AI conversazionale e i modelli linguistici che alimentano prodotti come Gemini, applicando innovazioni architettoniche simili a problemi scientifici.
Perché questo è importante
Il genoma umano contiene circa 3 miliardi di paia di basi, ma solo circa l’1,5% codifica direttamente per le proteine. Il restante 98,5% – a lungo considerato “DNA spazzatura” – contiene elementi regolatori che controllano quando, dove e quanto i geni vengono espressi. Le mutazioni in queste regioni non codificanti causano malattie, ma identificare quali varianti sono importanti è stato estremamente difficile.
I metodi tradizionali richiedono esperimenti costosi e lunghi per testare singole varianti. I modelli di apprendimento automatico come AlphaGenome possono esaminare migliaia di varianti in modo computazionale, dando la priorità a quelle che meritano un follow-up sperimentale. Per la diagnosi di malattie rare, dove i pazienti spesso portano nuove varianti con effetti sconosciuti, questa capacità potrebbe accelerare il percorso dalla sequenza alla diagnosi.
La capacità del modello di elaborare contesti di un milione di basi è particolarmente significativa. Gli elementi regolatori genici possono trovarsi a centinaia di migliaia di paia di basi di distanza dai geni che controllano, comunicando attraverso la complessa piegatura tridimensionale del DNA. I modelli precedenti con finestre di contesto più brevi non potevano catturare queste dipendenze a lungo raggio.
AlphaGenome si unisce a un ecosistema in crescita di strumenti di intelligenza artificiale che trasformano la ricerca biologica. La previsione della struttura delle proteine, la scoperta di farmaci e ora la regolazione genica sono problemi sempre più trattabili per l’apprendimento automatico. Per la comunità di ricerca genetica, la disponibilità open source di questi modelli democratizza l’accesso alle capacità computazionali che erano in precedenza limitate ai laboratori ben finanziati.
I limiti del modello sono anche chiari dalla presentazione di DeepMind. Mentre AlphaGenome eccelle nella previsione delle misurazioni sperimentali, tradurre quelle previsioni in esiti clinici richiede ulteriore convalida. Il divario tra la previsione dell’accessibilità della cromatina e la previsione del rischio di malattia rimane sostanziale.
Per ora, AlphaGenome serve come strumento di ricerca – uno che potrebbe accelerare la comprensione di come funziona il genoma, anche se le applicazioni cliniche rimangono anni lontane. I 3.000 scienziati in 160 paesi già utilizzano il modello, suggerendo che la comunità di ricerca vede un valore immediato in ciò che DeepMind ha costruito.












