interviste
Stefano Pacifico e David Heeger, co-fondatori di Epistemic AI – serie di interviste

IA epistemica Utilizza algoritmi all'avanguardia di elaborazione del linguaggio naturale (NLP), apprendimento automatico e apprendimento profondo per mappare le relazioni tra un crescente corpus di conoscenze biomediche, provenienti da molteplici fonti pubbliche e private, inclusi documenti di testo e database. Attraverso un processo di mappatura della conoscenza, gli utenti interagiscono con la piattaforma per mappare e comprendere sottoinsiemi di conoscenze biomediche, rivelando concetti e relazioni che altrimenti verrebbero persi con la ricerca tradizionale.
Abbiamo intervistato entrambi i co-fondatori di Epistemic AI per discutere di questi ultimi progressi.
Stefano Pacifico proviene da oltre 10 anni nello sviluppo di AI applicata e PNL. Precedentemente a Bloomberg, dove ha trascorso 7 anni, ed è stato presso Elemental Cognition prima di iniziare Epistemic.
David Heger è un professore d'argento di scienza dei dati e neuroscienze alla New York University e ha trascorso la sua carriera collegando informatica, intelligenza artificiale e bioscienze. È membro dell'Accademia Nazionale delle Scienze. In qualità di fondatori, riuniscono l'esperienza nella costruzione di sistemi di intelligenza artificiale e PNL applicati su larga scala per comprendere grandi raccolte di conoscenze, con esperienza in biologia computazionale e scienze biomediche derivanti da anni di ricerca nel settore.
Cos'è che ti ha fatto conoscere e attrarre l'intelligenza artificiale e l'elaborazione del linguaggio naturale (PNL)?
Stefano Pacifico: Quando ero in università a Roma, e l'intelligenza artificiale non era per niente popolare (anzi era molto marginale), chiesi al mio allora relatore quale specializzazione avrei dovuto prendere tra quelle disponibili. Ha detto: "Se vuoi fare soldi, ingegneria del software e database, ma se vuoi essere strano ma molto avanzato, allora scegli l'intelligenza artificiale". Sono stato venduto a "strano". Ho quindi iniziato a lavorare sulla rappresentazione della conoscenza e sul ragionamento per studiare come agenti autonomi potessero giocare a calcio o salvare le persone. Poi due realizzazioni mi hanno fatto innamorare della PNL: in primo luogo, gli agenti autonomi potrebbero dover comunicare tra loro con il linguaggio naturale! In secondo luogo, costruire a mano basi di conoscenza formale è difficile, mentre il linguaggio naturale (nel testo) fornisce già la base di conoscenza più ampia di tutte. So che oggi queste potrebbero sembrare osservazioni ovvie, ma prima non erano così mainstream.
Qual è stata l'ispirazione dietro il lancio di Epistemic AI?
Stefano Pacifico: Ho intenzione di fare un'affermazione audace. Nessuno oggi dispone di strumenti adeguati per comprendere e collegare la conoscenza presente in raccolte di documenti e dati ampie e in continua crescita. Avevo già lavorato su quel problema nel mondo della finanza. Pensa a notizie, rendiconti finanziari, dati sui prezzi, azioni societarie, documenti ecc. Ho trovato quel problema inebriante. E, naturalmente, è un problema difficile; e importante! Quando ho incontrato il mio co-fondatore, il dottor David Heeger, abbiamo passato un bel po' di tempo a valutare le opportunità di avvio nel settore biomedico. Quando ci siamo resi conto dell'enorme volume di informazioni generate in questo campo, è come se tutto andasse al posto giusto. I ricercatori biomedici lottano con il sovraccarico di informazioni, mentre tentano di cimentarsi con la vasta e in rapida espansione della base di conoscenze biomediche, inclusi documenti (ad es. articoli, brevetti, sperimentazioni cliniche) e database (ad es. geni, proteine, percorsi, farmaci, malattie, termini medici). Questo è un grave punto dolente per i ricercatori e, senza una soluzione adeguata disponibile, sono costretti a utilizzare strumenti di ricerca di base (PubMed e Google Scholar) ed esplorare database curati manualmente. Questi strumenti sono adatti per trovare documenti che corrispondono a parole chiave (ad esempio, un singolo gene o un articolo pubblicato su una rivista), ma non per acquisire una conoscenza completa su un'area tematica o un sottodominio (ad esempio, COVID-19) o per interpretare i risultati di un'elevata produttività esperimenti di biologia, come il sequenziamento genico, l'espressione proteica o lo screening di composti chimici. Abbiamo avviato Epistemic AI con l'idea di affrontare questo problema con una piattaforma che consenta loro di:
- Riduci i tempi di raccolta delle informazioni e costruisci mappe di conoscenza complete
- Mettere in superficie informazioni interdisciplinari che possono essere altrimenti difficili da trovare (le vere scoperte spesso vengono dall'esaminare lo spazio bianco tra le discipline);
- Identifica le ipotesi causali trovando percorsi e collegamenti mancanti nella tua mappa della conoscenza.
Quali sono alcune delle fonti pubbliche e private utilizzate per mappare queste relazioni?
Stefano Pacifico: In questo momento, stiamo ingerendo tutte le fonti pubblicamente disponibili su cui possiamo mettere le mani, inclusi Pubmed e clinicaltrials.gov. Ingeriamo database di geni, farmaci, malattie e le loro interazioni. Includiamo anche fonti di dati private per clienti selezionati, ma non siamo ancora autorizzati a rivelare alcun dettaglio.
Che tipo di tecnologie di apprendimento automatico vengono utilizzate per la mappatura della conoscenza?
Stefano Pacifico: Una delle convinzioni profondamente radicate in Epistemic AI è che il fanatismo non è utile per la costruzione di prodotti. Costruire un'architettura che integri diverse tecniche di apprendimento automatico è stata una decisione presa all'inizio, e queste vanno dalla rappresentazione della conoscenza ai modelli Transformer, attraverso l'incorporamento di grafici, ma includono anche modelli più semplici come regressioni e foreste casuali. Ogni componente è semplice come deve essere, ma non più semplice. Anche se crediamo di aver già costruito componenti NLP che sono all'avanguardia per determinate attività, non rifuggiamo da modelli di base più semplici quando possibile.
Puoi nominare alcune delle aziende, organizzazioni non profit o istituzioni accademiche che utilizzano la piattaforma Epistemic?
Stefano Pacifico: Anche se mi piacerebbe, non abbiamo concordato con i nostri utenti di farlo. Posso dire che abbiamo avuto iscritti da istituzioni di altissimo profilo in tutti e tre i segmenti (aziende, no profit e istituzioni accademiche). Inoltre, intendiamo mantenere la piattaforma gratuita per scopi accademici/senza scopo di lucro.
In che modo Epistemic assiste i ricercatori nell'identificazione del sistema nervoso centrale (SNC) e di altri biomarcatori specifici della malattia?
Il dottor David Heeger: Le neuroscienze sono un campo altamente interdisciplinare che comprende la biologia molecolare e cellulare e la genomica, ma anche la psicologia, la chimica ei principi della fisica, dell'ingegneria e della matematica. È così vasto che nessuno può esserne un esperto. I ricercatori delle istituzioni accademiche e delle aziende farmaceutiche/biotecnologiche sono costretti a specializzarsi. Ma sappiamo che le intuizioni importanti sono interdisciplinari, combinando la conoscenza delle sotto-specialità. La piattaforma software basata sull'intelligenza artificiale che stiamo costruendo consente a tutti di essere molto più interdisciplinari, di vedere le connessioni tra la propria sottoarea di competenza individuale e altri argomenti e di identificare nuove ipotesi. Questo è particolarmente importante nelle neuroscienze perché è un campo altamente interdisciplinare per cominciare. La funzione e la disfunzione del cervello umano è il problema più difficile che la scienza abbia mai affrontato. La nostra missione è cambiare il modo in cui lavorano gli scienziati biomedici e persino il modo in cui pensano.
L'epistemica consente anche la scoperta dei meccanismi genetici dei disturbi del sistema nervoso centrale. Puoi spiegarci come funziona?
Il dottor David Heeger: La maggior parte delle malattie neurologiche, delle malattie psichiatriche e dei disturbi dello sviluppo non hanno una semplice spiegazione in termini di differenze genetiche. Ci sono una manciata di disturbi sindromici per i quali è noto che una mutazione specifica causa il disturbo. Ma in genere non è così. Ci sono centinaia di differenze genetiche, ad esempio, che sono state associate ai disturbi dello spettro autistico (ASD). C'è una certa comprensione per alcuni di questi geni sulle funzioni che svolgono in termini di biologia di base. Ad esempio, alcuni dei geni associati all'ASD tengono insieme le sinapsi nel cervello (si noti, tuttavia, che gli stessi geni svolgono tipicamente funzioni diverse in altri sistemi di organi del corpo). Ma c'è ben poca comprensione su come queste differenze genetiche possano spiegare la complessa serie di differenze comportamentali esibite da individui con ASD. A peggiorare le cose, due individui con la stessa differenza genetica possono avere esiti completamente diversi, uno con diagnosi di ASD e l'altro no. E due individui con profili genetici completamente diversi possono avere lo stesso risultato con deficit comportamentali molto simili. Per comprendere tutto ciò è necessario stabilire una connessione dalla genomica e dalla biologia molecolare alle neuroscienze cellulari (in che modo le differenze genetiche fanno sì che i singoli neuroni funzionino in modo diverso) e quindi alle neuroscienze dei sistemi (in che modo queste differenze nella funzione cellulare causano reti di un gran numero di neuroni interconnessi funzionare in modo diverso) e poi alla psicologia (in che modo queste differenze nella funzione della rete neurale causano differenze nella cognizione, nell'emozione e nel comportamento). E tutto questo deve essere compreso da una prospettiva evolutiva. Una differenza genetica può causare un deficit in un particolare aspetto della funzione neurale. Ma il cervello non si limita a sedersi lì e prenderlo. I cervelli sono altamente adattivi. Se c'è un meccanismo mancante o rotto, il cervello si svilupperà in modo diverso per compensare il più possibile. Questa compensazione potrebbe essere molecolare, ad esempio, sovraregolando un altro recettore sinaptico per sostituire la funzione di un recettore sinaptico rotto. Oppure la compensazione potrebbe essere comportamentale. Il risultato finale dipende non solo dalla differenza genetica iniziale ma anche dai vari tentativi di compensazione affidandosi ad altri meccanismi molecolari, cellulari, circuitali, sistemici e comportamentali.
Nessun individuo ha la conoscenza per capire tutto questo. Abbiamo tutti bisogno di aiuto. La piattaforma software basata sull'intelligenza artificiale che stiamo costruendo consente a tutti di raccogliere e collegare tutte le conoscenze biomediche pertinenti, vedere le connessioni e identificare nuove ipotesi.
In che modo le istituzioni biofarmaceutiche e accademiche utilizzano Epistemic per affrontare la sfida del COVID-19?
Stefano Pacifico: Abbiamo rilasciato una versione pubblica della nostra piattaforma che include set di dati specifici per il COVID ed è liberamente accessibile a chiunque effettui ricerche sul COVID-19. È disponibile su https://covid.epistemic.ai
Quali sono alcune delle altre malattie o problemi genetici per cui è stato utilizzato Epistemic?
Stefano Pacifico: Abbiamo collaborato con ricercatori sull'autismo e recentemente stiamo mettendo insieme un nuovo sforzo di ricerca per la fibrosi cistica. Ma siamo felici di collaborare con altri ricercatori o istituzioni che potrebbero aver bisogno di aiuto con la loro ricerca.
C'è qualcos'altro che vorresti condividere su Epistemic?
Stefano Pacifico: Stiamo costruendo un movimento di persone che vogliono cambiare il modo in cui i ricercatori biomedici lavorano e pensano. Speriamo sinceramente che molti dei tuoi lettori vorranno unirsi a noi!
Grazie a entrambi per aver dedicato del tempo a rispondere alle nostre domande. I lettori che desiderano saperne di più dovrebbero visitare IA epistemica.












