mozzicone I ricercatori di intelligenza artificiale sviluppano una rete neurale spiegabile per scoprire le regole genomiche - Unite.AI
Seguici sui social

Intelligenza Artificiale

I ricercatori di intelligenza artificiale sviluppano una rete neurale spiegabile per scoprire le regole genomiche

mm
aggiornato on

Un team di ricercatori ha recentemente creato una rete neurale spiegabile destinato ad aiutare i biologi a scoprire le misteriose regole che governano il codice del genoma umano. Il team di ricerca ha addestrato una rete neurale sulle mappe delle interazioni proteina-DNA, consentendo all'intelligenza artificiale di scoprire come determinate sequenze di DNA regolano determinati geni. I ricercatori hanno anche reso il modello spiegabile, in modo da poter analizzare le conclusioni del modello e determinare come sequenziare i motivi che regolano i geni.

Uno dei grandi misteri della biologia è il codice regolatore del genoma. È noto che il DNA è composto da quattro basi nucleotidiche - adenina, guanina, timina e citosina - ma non si sa come queste coppie di basi vengano utilizzate per regolare l'attività. Le quattro basi nucleotidiche codificano le istruzioni per costruire le proteine, ma controllano anche dove e come vengono espressi i geni (come producono le proteine ​​in un organismo). Particolari combinazioni e disposizioni delle basi creano sezioni di codice normativo che si legano a segmenti di DNA, e non si sa esattamente quali siano queste combinazioni.

Un team interdisciplinare di informatici e biologi ha deciso di risolvere questo mistero creando una rete neurale spiegabile. Il team di ricerca ha creato una rete neurale che hanno soprannominato "Base Pair Network" o "BPNet". Il modello utilizzato da BPNet per generare previsioni può essere interpretato per identificare i codici normativi. Ciò è stato ottenuto prevedendo in che modo le proteine ​​chiamate fattori di trascrizione si legano alle sequenze di DNA.

I ricercatori hanno eseguito una serie di esperimenti e hanno fatto modelli computerizzati completi per determinare come i fattori di trascrizione e il DNA fossero legati insieme, sviluppando una mappa dettagliata fino al livello delle singole basi nucleotidiche. Le rappresentazioni dettagliate del fattore di trascrizione-DNA consentono ai ricercatori di creare strumenti in grado di interpretare sia i modelli di sequenza del DNA critici sia le regole che funzionano come codice normativo.

Julia Zeitlinger, biologa PhD e ricercatrice computazionale presso la Stanford University, ha spiegato che i risultati raccolti dalla rete neurale spiegabile si combinavano con i risultati sperimentali esistenti, ma contenevano anche intuizioni sorprendenti sul codice normativo del genoma. Ad esempio, il modello AI ha permesso al team di ricerca di scoprire una regola che influenza il funzionamento di un fattore di trascrizione chiamato Nanog. Quando più istanze del motivo Nanog sono presenti sullo stesso lato di una doppia elica del DNA, si legano in modo cooperativo al DNA. Come ha spiegato Zeitlinger tramite ScienceDaily:

“C'è stata una lunga serie di prove sperimentali che tale periodicità del motivo a volte esiste nel codice normativo. Tuttavia, le circostanze esatte erano sfuggenti e Nanog non era sospettato. Scoprire che Nanog ha un tale schema e vedere ulteriori dettagli delle sue interazioni è stato sorprendente perché non abbiamo cercato specificamente questo schema».

I recente documento di ricerca è ben lungi dall'essere il primo studio a utilizzare l'intelligenza artificiale per analizzare il DNA, ma è probabilmente il primo studio ad aprire la "scatola nera" dell'intelligenza artificiale per discernere quali sequenze di DNA regolano i geni nel genoma. Le reti neurali eccellono nel trovare modelli all'interno dei dati, ma le loro intuizioni sono difficili da estrarre dai modelli che creano. Creando un metodo di analisi delle caratteristiche che il modello considera importanti per la previsione delle regole genomiche, i ricercatori potrebbero addestrare modelli più sfumati che portano a nuove scoperte.

L'architettura di BPNet è simile alle reti utilizzate per riconoscere i volti nelle immagini. Quando i sistemi di visione artificiale riconoscono i volti nelle immagini, la rete inizia rilevando i bordi e poi li unisce insieme. La differenza è che BPNet apprende dalle sequenze di DNA, rilevando i motivi della sequenza e unendoli insieme in regole di ordine superiore che possono essere utilizzate per prevedere il legame dei dati alla risoluzione di base.

Dopo che il modello ha raggiunto una soglia di precisione elevata, i modelli appresi dal modello vengono ricondotti alle sequenze di input originali, rivelando i motivi della sequenza. Infine, il modello è dotato di interrogazioni sistematiche sulla sequenza del DNA, che consentono ai ricercatori di comprendere le regole in base alle quali i motivi della sequenza si combinano e funzionano. Secondo Zeitlinger, il modello è in grado di prevedere molte più sequenze di quelle che i ricercatori potrebbero sperare di testare in modo tradizionale e sperimentale. Inoltre, la previsione dell'esito delle anomalie sperimentali ha consentito ai ricercatori di identificare quali esperimenti sono stati più istruttivi durante la convalida del modello.