mozzicone Dr. Serafim Batzoglou, Chief Data Officer presso Seer - Serie di interviste - Unite.AI
Seguici sui social

interviste

Dr. Serafim Batzoglou, Chief Data Officer presso Seer – Serie di interviste

mm

Pubblicato il

 on

Serafim Batzoglou è Chief Data Officer presso profeta. Prima di unirsi a Seer, Serafim ha ricoperto il ruolo di Chief Data Officer presso Insitro, guidando l'apprendimento automatico e la scienza dei dati nel loro approccio alla scoperta di farmaci. Prima di Insitro, ha ricoperto il ruolo di Vicepresidente di Biologia applicata e computazionale presso Illumina, guidando la ricerca e lo sviluppo tecnologico dell'intelligenza artificiale e dei test molecolari per rendere i dati genomici più interpretabili nella salute umana.

Cosa ti ha attratto inizialmente nel campo della genomica?

Ho iniziato a interessarmi al campo della biologia computazionale all'inizio del mio dottorato di ricerca in informatica al MIT, quando ho seguito un corso sull'argomento tenuto da Bonnie Berger, che è diventata la mia relatrice per il dottorato, e David Gifford. Il progetto sul genoma umano stava accelerando durante il mio dottorato. Eric Lander, che era a capo del Genome Center al MIT, divenne il mio co-relatore di dottorato e mi coinvolse nel progetto. Motivato dal progetto sul genoma umano, ho lavorato sull'assemblaggio dell'intero genoma e sulla genomica comparativa del DNA umano e di topo.

Mi sono poi trasferito alla Stanford University come docente presso il dipartimento di Informatica, dove ho trascorso 15 anni, e ho avuto il privilegio di aver assistito circa 30 studenti di dottorato di incredibile talento e molti ricercatori e studenti universitari post-dottorato. Il focus del mio team è stato l'applicazione di algoritmi, apprendimento automatico e creazione di strumenti software per l'analisi di dati genomici e biomolecolari su larga scala. Ho lasciato Stanford nel 2016 per guidare un team di ricerca e sviluppo tecnologico presso Illumina. Da allora, mi è piaciuto dirigere team di ricerca e sviluppo nell'industria. Trovo che il lavoro di squadra, l’aspetto commerciale e un impatto più diretto sulla società siano caratteristici dell’industria rispetto al mondo accademico. Nel corso della mia carriera ho lavorato presso aziende innovative: DNAnexus, che ho co-fondato nel 2009, Illumina, insitro e ora Seer. Il calcolo e l’apprendimento automatico sono essenziali lungo tutta la catena tecnologica nel settore biotecnologico, dallo sviluppo tecnologico, all’acquisizione dei dati, all’interpretazione e alla traduzione dei dati biologici per la salute umana.

Negli ultimi 20 anni, il sequenziamento del genoma umano è diventato molto più economico e veloce. Ciò ha portato a una crescita straordinaria nel mercato del sequenziamento del genoma e a una più ampia adozione nel settore delle scienze della vita. Siamo ora sul punto di disporre di dati genomici, multi-omici e fenotipici della popolazione di dimensioni sufficienti per rivoluzionare in modo significativo l’assistenza sanitaria, compresa la prevenzione, la diagnosi, il trattamento e la scoperta di farmaci. Possiamo scoprire sempre più le basi molecolari delle malattie per gli individui attraverso l’analisi computazionale dei dati genomici, e i pazienti hanno la possibilità di ricevere trattamenti personalizzati e mirati, soprattutto nelle aree del cancro e delle malattie genetiche rare. Al di là dell’ovvio utilizzo in medicina, l’apprendimento automatico abbinato alle informazioni genomiche ci consente di acquisire informazioni su altri ambiti della nostra vita, come la nostra genealogia e la nutrizione. I prossimi anni vedranno l’adozione di un’assistenza sanitaria personalizzata e basata sui dati, dapprima per gruppi selezionati di persone, come i pazienti affetti da malattie rare, e sempre più per il grande pubblico.

Prima del tuo ruolo attuale eri Chief Data Officer presso Intro, leader nell'apprendimento automatico e nella scienza dei dati nel loro approccio alla scoperta di farmaci. Quali sono stati alcuni dei principali insegnamenti di questo periodo riguardo al modo in cui l'apprendimento automatico può essere utilizzato per accelerare la scoperta di farmaci?

Il paradigma convenzionale di “prova ed errore” per la scoperta e lo sviluppo di farmaci è afflitto da inefficienze e tempistiche estremamente lunghe. Perché un farmaco venga immesso sul mercato, può volerci fino a 1 miliardo di dollari e oltre un decennio. Incorporando l’apprendimento automatico in questi sforzi, possiamo ridurre drasticamente costi e tempi in diverse fasi. Un passo è l'identificazione del target, in cui un gene o un insieme di geni che modulano il fenotipo di una malattia o riportano uno stato cellulare malato in uno stato più sano possono essere identificati attraverso perturbazioni genetiche e chimiche su larga scala e letture fenotipiche come l'imaging e la genomica funzionale . Un altro passo è l'identificazione e l'ottimizzazione del composto, in cui una piccola molecola o altra modalità può essere progettata mediante previsione in silico basata sull'apprendimento automatico e screening in vitro, e inoltre le proprietà desiderate di un farmaco come solubilità, permeabilità, specificità e non-ossidazione. la tossicità può essere ottimizzata. L’aspetto più difficile ma anche più importante è forse la traduzione per gli esseri umani. In questo caso, la scelta del modello giusto (linee derivate da cellule staminali pluripotenti indotte rispetto a linee cellulari primarie di pazienti e campioni di tessuto rispetto a modelli animali) per la giusta malattia pone una serie di compromessi incredibilmente importanti che in ultima analisi si riflettono sulla capacità dei dati risultanti più la macchina imparare a tradurre per i pazienti.

Seer Bio sta sperimentando nuovi modi per decodificare i segreti del proteoma per migliorare la salute umana, per i lettori che non hanno familiarità con questo termine, cos'è il proteoma?

I proteoma è l'insieme mutevole di proteine ​​prodotte o modificate da un organismo nel tempo e in risposta all'ambiente, alla nutrizione e allo stato di salute. La proteomica è lo studio del proteoma all'interno di un dato tipo di cellula o campione di tessuto. Il genoma di un essere umano o di altri organismi è statico: con l'importante eccezione delle mutazioni somatiche, il genoma alla nascita è il genoma che si possiede per tutta la vita, copiato esattamente in ogni cellula del proprio corpo. Il proteoma è dinamico e cambia nell'arco di anni, giorni e persino minuti. In quanto tali, i proteomi sono molto più vicini al fenotipo e, in definitiva, allo stato di salute rispetto ai genomi, e di conseguenza più informativi per monitorare la salute e comprendere la malattia.

Noi di Seer abbiamo sviluppato un nuovo modo di accedere al proteoma che fornisce informazioni più approfondite sulle proteine ​​e sulle proteoforme in campioni complessi come il plasma, che è un campione altamente accessibile che purtroppo fino ad oggi ha rappresentato una grande sfida per la proteomica della spettrometria di massa convenzionale.

Cos'è la piattaforma Proteograph™ del Veggente e in che modo offre una nuova visione del proteoma?

La piattaforma Proteograph di Seer sfrutta una libreria di nanoparticelle ingegnerizzate proprietarie, alimentate da un flusso di lavoro semplice, rapido e automatizzato, consentendo un'interrogazione profonda e scalabile del proteoma.

La piattaforma Proteograph eccelle nell'interrogazione di plasma e altri campioni complessi che presentano un ampio intervallo dinamico (differenze di molti ordini di grandezza nell'abbondanza di varie proteine ​​nel campione) dove i metodi convenzionali di spettrometria di massa non sono in grado di rilevare la parte a bassa abbondanza del proteoma. Le nanoparticelle del Veggente sono progettate con proprietà fisico-chimiche sintonizzabili che raccolgono proteine ​​attraverso la gamma dinamica in modo imparziale. Nei tipici campioni di plasma, la nostra tecnologia consente il rilevamento di un numero di proteine ​​da 5 a 8 volte superiore rispetto alla lavorazione del plasma puro senza l'utilizzo del Proteograph. Di conseguenza, dalla preparazione dei campioni alla strumentazione fino all'analisi dei dati, la nostra suite di prodotti Proteograph aiuta gli scienziati a trovare firme di malattie del proteoma che altrimenti potrebbero non essere rilevabili. Ci piace dire che in Seer stiamo aprendo una nuova porta al proteoma.

Inoltre, stiamo consentendo agli scienziati di eseguire facilmente studi proteogenomici su larga scala. La proteogenomica è la combinazione di dati genomici con dati proteomici per identificare e quantificare varianti proteiche, collegare varianti genomiche con livelli di abbondanza proteica e, infine, collegare il genoma e il proteoma al fenotipo e alla malattia e iniziare a districare i percorsi genetici causali e a valle associati alla malattia .

Puoi parlare di alcune delle tecnologie di apprendimento automatico attualmente utilizzate in Seer Bio?

Seer sfrutta l'apprendimento automatico in tutte le fasi, dallo sviluppo tecnologico all'analisi dei dati a valle. Tali passaggi includono: (1) progettazione delle nostre nanoparticelle proprietarie, in cui l'apprendimento automatico ci aiuta a determinare quali proprietà fisico-chimiche e combinazioni di nanoparticelle funzioneranno con linee di prodotti e test specifici; (2) rilevamento e quantificazione di peptidi, proteine, varianti e proteoforme dai dati di lettura prodotti dagli strumenti MS; (3) analisi proteomiche e proteogenomiche a valle in coorti di popolazione su larga scala.

L'anno scorso, noi ha pubblicato un articolo su Advanced Materials combinando metodi di proteomica, nanoingegneria e apprendimento automatico per migliorare la nostra comprensione dei meccanismi di formazione della corona proteica. Questo documento ha scoperto le interazioni nano-biologiche e sta informando Seer sulla creazione di nanoparticelle e prodotti futuri migliorati.

Oltre allo sviluppo delle nanoparticelle, abbiamo sviluppato nuovi algoritmi per identificare peptidi varianti e modifiche post-traduzionali (PTM). Recentemente abbiamo sviluppato un metodo per rilevamento di loci dei tratti quantificati nelle proteine (pQTL) che è robusto per le varianti proteiche, che è un noto confondente per la proteomica basata sull'affinità. Stiamo estendendo questo lavoro per identificare direttamente questi peptidi dagli spettri grezzi utilizzando metodi di sequenziamento de novo basati sul deep learning per consentire la ricerca senza aumentare le dimensioni delle librerie spettrali.

Il nostro team sta inoltre sviluppando metodi per consentire agli scienziati senza una profonda esperienza nell'apprendimento automatico di ottimizzare e utilizzare modelli di apprendimento automatico nel loro lavoro di scoperta. Ciò viene ottenuto tramite un framework Seer ML basato su AutoML strumento, che consente un'efficiente ottimizzazione degli iperparametri tramite l'ottimizzazione bayesiana.

Infine, stiamo sviluppando metodi per ridurre l'effetto batch e aumentare l'accuratezza quantitativa della lettura dello spettrometro di massa modellando i valori quantitativi misurati per massimizzare le metriche previste come la correlazione dei valori di intensità tra i peptidi all'interno di un gruppo proteico.

Le allucinazioni sono un problema comune con gli LLM, quali sono alcune delle soluzioni per prevenirlo o mitigarlo?

I LLM sono metodi generativi a cui viene fornito un ampio corpus e addestrati a generare testo simile. Catturano le proprietà statistiche sottostanti del testo su cui sono addestrati, da semplici proprietà locali come la frequenza con cui determinate combinazioni di parole (o token) si trovano insieme, a proprietà di livello superiore che emulano la comprensione del contesto e del significato.

Tuttavia, gli LLM non sono principalmente formati per essere corretti. L'apprendimento per rinforzo con feedback umano (RLHF) e altre tecniche aiutano ad addestrarli per proprietà desiderabili inclusa la correttezza, ma non hanno pieno successo. Dato un prompt, gli LLM genereranno il testo che assomiglia di più alle proprietà statistiche dei dati di training. Spesso anche questo testo è corretto. Ad esempio, se viene chiesto "quando è nato Alessandro Magno", la risposta corretta è 356 a.C. (o a.C.) ed è probabile che un LLM dia quella risposta perché nei dati di addestramento la nascita di Alessandro Magno appare spesso come questo valore. Tuttavia, quando viene chiesto "quando è nata l'imperatrice Reginella", un personaggio immaginario non presente nel corpus di formazione, è probabile che il LLM abbia allucinazioni e crei una storia della sua nascita. Allo stesso modo, quando viene posta una domanda per la quale il LLM potrebbe non recuperare una risposta corretta (o perché la risposta giusta non esiste o per altri scopi statistici), è probabile che abbia allucinazioni e risponda come se lo sapesse. Ciò crea allucinazioni che rappresentano un ovvio problema per applicazioni serie, come “come si può curare questo o quel cancro”.

Non esistono ancora soluzioni perfette per le allucinazioni. Sono endemici nella progettazione del LLM. Una soluzione parziale è quella di ricevere suggerimenti adeguati, come chiedere al LLM di “pensare attentamente, passo dopo passo” e così via. Ciò aumenta la probabilità dei LLM di non inventare storie. Un approccio più sofisticato in fase di sviluppo è l'uso dei grafici della conoscenza. I grafici della conoscenza forniscono dati strutturati: le entità in un grafico della conoscenza sono collegate ad altre entità in modo logico predefinito. Costruire un grafico della conoscenza per un dato dominio è ovviamente un compito impegnativo ma fattibile con una combinazione di metodi e curation automatizzati e statistici. Con un grafico della conoscenza integrato, gli LLM possono effettuare un controllo incrociato delle affermazioni che generano con l'insieme strutturato di fatti noti e possono essere costretti a non generare un'affermazione che contraddica o non sia supportata dal grafico della conoscenza.

A causa del problema fondamentale delle allucinazioni, e probabilmente a causa della loro mancanza di sufficienti capacità di ragionamento e giudizio, gli LLM sono oggi potenti per recuperare, collegare e distillare informazioni, ma non possono sostituire gli esperti umani in applicazioni serie come la diagnosi medica o la consulenza legale. Tuttavia, possono migliorare enormemente l’efficienza e la capacità degli esperti umani in questi settori.

Puoi condividere la tua visione per un futuro in cui la biologia sarà guidata dai dati piuttosto che dalle ipotesi?

Il tradizionale approccio basato sulle ipotesi, che prevede che i ricercatori trovino modelli, sviluppino ipotesi, eseguano esperimenti o studi per testarle e quindi raffinino le teorie basate sui dati, sta venendo soppiantato da un nuovo paradigma basato sulla modellazione basata sui dati.

In questo paradigma emergente, i ricercatori iniziano con la generazione di dati su larga scala e priva di ipotesi. Quindi, addestrano un modello di apprendimento automatico come un LLM con l'obiettivo di una ricostruzione accurata dei dati occlusi, una forte regressione o prestazioni di classificazione in una serie di attività a valle. Una volta che il modello di apprendimento automatico è in grado di prevedere con precisione i dati e raggiunge una fedeltà paragonabile alla somiglianza tra repliche sperimentali, i ricercatori possono interrogare il modello per estrarre informazioni sul sistema biologico e discernere i principi biologici sottostanti.

Gli LLM si stanno rivelando particolarmente efficaci nella modellazione di dati biomolecolari e sono pensati per alimentare il passaggio dalla scoperta biologica basata su ipotesi a quella basata sui dati. Questo cambiamento diventerà sempre più pronunciato nei prossimi 10 anni e consentirà una modellazione accurata dei sistemi biomolecolari con una granularità che va ben oltre la capacità umana.

Qual è il potenziale impatto sulla diagnosi delle malattie e sulla scoperta di farmaci?

Credo che il LLM e l’intelligenza artificiale generativa porteranno a cambiamenti significativi nel settore delle scienze della vita. Un'area che trarrà grandi benefici dagli LLM è la diagnosi clinica, in particolare per le malattie rare e difficili da diagnosticare e i sottotipi di cancro. Esistono enormi quantità di informazioni complete sui pazienti a cui possiamo attingere – dai profili genomici, alle risposte al trattamento, alle cartelle cliniche e all’anamnesi familiare – per ottenere diagnosi accurate e tempestive. Se riusciamo a trovare un modo per raccogliere tutti questi dati in modo che siano facilmente accessibili e non archiviati dalle singole organizzazioni sanitarie, possiamo migliorare notevolmente la precisione diagnostica. Ciò non implica che i modelli di apprendimento automatico, compresi gli LLM, saranno in grado di operare autonomamente nella diagnosi. A causa dei loro limiti tecnici, nel prossimo futuro non saranno autonomi, ma aumenteranno gli esperti umani. Saranno strumenti potenti per aiutare il medico a fornire valutazioni e diagnosi perfettamente informate in una frazione del tempo necessario fino ad oggi, e a documentare e comunicare correttamente le proprie diagnosi al paziente e all'intera rete di operatori sanitari collegati attraverso la macchina. sistema di apprendimento.

L’industria sta già sfruttando l’apprendimento automatico per la scoperta e lo sviluppo di farmaci, pubblicizzando la sua capacità di ridurre costi e tempistiche rispetto al paradigma tradizionale. Gli LLM si aggiungono ulteriormente agli strumenti disponibili e forniscono strutture eccellenti per la modellazione di dati biomolecolari su larga scala, inclusi genomi, proteomi, dati genomici ed epigenomici funzionali, dati di singole cellule e altro ancora. Nel prossimo futuro, i LLM di fondazione si collegheranno senza dubbio attraverso tutte queste modalità di dati e attraverso ampie coorti di individui di cui vengono raccolte informazioni genomiche, proteomiche e sanitarie. Tali LLM aiuteranno nella generazione di bersagli farmacologici promettenti, identificheranno probabili sacche di attività di proteine ​​associate alla funzione biologica e alla malattia o suggeriranno percorsi e funzioni cellulari più complesse che possono essere modulate in modo specifico con piccole molecole o altre modalità farmacologiche. Possiamo anche attingere agli LLM per identificare i soggetti che rispondono e non rispondono ai farmaci in base alla predisposizione genetica o per riutilizzare i farmaci in altre indicazioni di malattie. Molte delle società innovative esistenti per la scoperta di farmaci basate sull’intelligenza artificiale stanno senza dubbio già iniziando a pensare e a svilupparsi in questa direzione, e dovremmo aspettarci di vedere la formazione di ulteriori società nonché sforzi pubblici volti all’implementazione di LLM nella salute umana e nel settore farmaceutico. scoperta.

Grazie per l'intervista dettagliata, i lettori che desiderano saperne di più dovrebbero visitare profeta.

Socio fondatore di unite.AI e membro di Consiglio tecnologico di Forbes, Antonio è un futurista che è appassionato del futuro dell'intelligenza artificiale e della robotica.

È anche il Fondatore di Titoli.io, un sito web che si concentra sugli investimenti in tecnologie dirompenti.