taló Dr. Serafim Batzoglou, director de dades de Seer - Sèrie d'entrevistes - Unite.AI
Connecteu-vos amb nosaltres

entrevistes

Dr. Serafim Batzoglou, director de dades de Seer – Sèrie d'entrevistes

mm

publicat

 on

Serafim Batzoglou és el director de dades de Vist. Abans d'unir-se a Seer, Serafim va exercir com a director de dades a Insitro, liderant l'aprenentatge automàtic i la ciència de dades en el seu enfocament al descobriment de fàrmacs. Abans d'Insitro, va exercir com a vicepresident de Biologia Aplicada i Computacional a Illumina, liderant la investigació i el desenvolupament tecnològic d'IA i assajos moleculars per fer que les dades genòmiques siguin més interpretables en la salut humana.

Què et va atraure inicialment al camp de la genòmica?

Em vaig interessar pel camp de la biologia computacional quan vaig començar el meu doctorat en informàtica al MIT, quan vaig fer una classe sobre el tema impartida per Bonnie Berger, que es va convertir en el meu assessor de doctorat, i David Gifford. El projecte del genoma humà va anar agafant ritme durant el meu doctorat. Eric Lander, que dirigia el Genome Center del MIT, es va convertir en el meu co-assessor de doctorat i em va implicar en el projecte. Motivat pel projecte del genoma humà, vaig treballar en el muntatge del genoma sencer i la genòmica comparada de l'ADN humà i del ratolí.

Després em vaig traslladar a la Universitat de Stanford com a professor al departament de Ciències de la Computació, on vaig passar 15 anys, i vaig tenir el privilegi d'haver assessorat uns 30 estudiants de doctorat amb un talent increïble i molts investigadors i estudiants postdoctorals. L'objectiu del meu equip ha estat l'aplicació d'algorismes, aprenentatge automàtic i eines de programari per a l'anàlisi de dades genòmiques i biomoleculars a gran escala. Vaig deixar Stanford el 2016 per dirigir un equip de recerca i desenvolupament tecnològic a Illumina. Des d'aleshores, he gaudit de liderar equips d'R+D a la indústria. Trobo que el treball en equip, l'aspecte empresarial i un impacte més directe a la societat són característiques de la indústria en comparació amb l'acadèmia. Vaig treballar en empreses innovadores al llarg de la meva carrera: DNAnexus, que vaig cofundar el 2009, Illumina, insitro i ara Seer. La computació i l'aprenentatge automàtic són essencials a tota la cadena tecnològica en biotecnologia, des del desenvolupament tecnològic fins a l'adquisició de dades, la interpretació de dades biològiques i la traducció a la salut humana.

Durant els últims 20 anys, la seqüenciació del genoma humà s'ha tornat molt més barata i ràpida. Això va provocar un creixement espectacular del mercat de la seqüenciació del genoma i una adopció més àmplia a la indústria de les ciències de la vida. Ara estem a la cúspide de tenir dades genòmiques, multiòmiques i fenotípiques de la població de mida suficient per revolucionar de manera significativa l'assistència sanitària, incloent la prevenció, el diagnòstic, el tractament i el descobriment de fàrmacs. Podem descobrir cada cop més els fonaments moleculars de la malaltia per a les persones mitjançant l'anàlisi computacional de dades genòmiques, i els pacients tenen l'oportunitat de rebre tractaments personalitzats i dirigits, especialment en les àrees del càncer i les malalties genètiques rares. Més enllà de l'ús obvi en medicina, l'aprenentatge automàtic juntament amb la informació genòmica ens permet obtenir informació sobre altres àrees de les nostres vides, com ara la nostra genealogia i la nutrició. Durant els propers anys s'adoptarà una atenció sanitària personalitzada i basada en dades, primer per a grups selectes de persones, com ara pacients amb malalties rares, i cada cop més per al públic ampli.

Abans d'exercir el vostre càrrec actual, vau ser Chief Data Officer a Intro, liderant l'aprenentatge automàtic i la ciència de dades en el seu enfocament al descobriment de fàrmacs. Quines van ser algunes de les vostres conclusions clau d'aquest període de temps sobre com es pot utilitzar l'aprenentatge automàtic per accelerar el descobriment de fàrmacs?

El paradigma de "assaig i error" de descobriment i desenvolupament de fàrmacs convencionals està plagat d'ineficiències i terminis extremadament llargs. Perquè un medicament arribi al mercat, pot necessitar més de 1 milions de dòlars i més d'una dècada. Si incorporem l'aprenentatge automàtic a aquests esforços, podem reduir dràsticament els costos i els terminis en diversos passos en el camí. Un pas és la identificació d'objectius, on es pot identificar un gen o conjunt de gens que modulen el fenotip d'una malaltia o que revertiran un estat cel·lular de la malaltia a un estat més saludable mitjançant pertorbacions genètiques i químiques a gran escala i lectures fenotípiques com ara la imatge i la genòmica funcional. . Un altre pas és la identificació i optimització de compostos, on es pot dissenyar una petita molècula o una altra modalitat mitjançant una predicció in silico impulsada per l'aprenentatge automàtic, així com el cribratge in vitro, i a més a més les propietats desitjades d'un fàrmac com ara la solubilitat, la permeabilitat, l'especificitat i la no la toxicitat es pot optimitzar. L'aspecte més difícil i més important és potser la traducció als humans. Aquí, l'elecció del model adequat (línies derivades de cèl·lules mare pluripotents induïdes versus línies cel·lulars de pacients primàries i mostres de teixit versus models animals) per a la malaltia adequada suposa un conjunt increïblement important de compensacions que finalment reflecteixen la capacitat de les dades resultants i la màquina. aprendre a traduir als pacients.

Seer Bio és pionera en noves maneres de descodificar els secrets del proteoma per millorar la salut humana, per als lectors que no estan familiaritzats amb aquest terme, què és el proteoma?

El proteoma és el conjunt canviant de proteïnes produïdes o modificades per un organisme al llarg del temps i en resposta al medi ambient, la nutrició i l'estat de salut. La proteòmica és l'estudi del proteoma dins d'un determinat tipus de cèl·lula o mostra de teixit. El genoma d'un ésser humà o d'altres organismes és estàtic: amb l'excepció important de les mutacions somàtiques, el genoma en néixer és el genoma que té tota la seva vida, copiat exactament a cada cèl·lula del seu cos. El proteoma és dinàmic i canvia en els intervals de temps d'anys, dies i fins i tot minuts. Com a tal, els proteomes estan molt més a prop del fenotip i, en última instància, de l'estat de salut que els genomes i, per tant, són més informatius per controlar la salut i comprendre la malaltia.

A Seer, hem desenvolupat una nova manera d'accedir al proteoma que proporciona una visió més profunda de proteïnes i proteoformes en mostres complexes com el plasma, que és una mostra molt accessible que, malauradament, fins ara ha suposat un gran repte per a la proteòmica convencional de l'espectrometria de masses.

Què és la plataforma Seer's Proteograph™ i com ofereix una nova visió del proteoma?

La plataforma Proteograph de Seer aprofita una biblioteca de nanopartícules dissenyades patentades, impulsades per un flux de treball senzill, ràpid i automatitzat, que permet una interrogació profunda i escalable del proteoma.

La plataforma Proteograph brilla en interrogar plasma i altres mostres complexes que presenten un gran rang dinàmic (molts ordres de magnitud de diferència en l'abundància de diverses proteïnes a la mostra), on els mètodes convencionals d'espectrometria de masses no poden detectar la part de baixa abundància del proteoma. Les nanopartícules de Seer estan dissenyades amb propietats fisioquímiques ajustables que recullen proteïnes a través del rang dinàmic de manera imparcial. En mostres de plasma típiques, la nostra tecnologia permet detectar de 5 a 8 vegades més proteïnes que quan es processa plasma net sense utilitzar el proteògraf. Com a resultat, des de la preparació de mostres fins a la instrumentació i l'anàlisi de dades, la nostra suite de productes Proteograph ajuda els científics a trobar signatures de malalties del proteoma que, d'altra manera, podrien ser indetectables. Ens agrada dir que a Seer, estem obrint una nova porta d'entrada al proteoma.

A més, estem permetent als científics realitzar fàcilment estudis proteogenòmics a gran escala. La proteogenòmica és la combinació de dades genòmiques amb dades proteòmiques per identificar i quantificar variants de proteïnes, enllaçar variants genòmiques amb nivells d'abundància de proteïnes i, finalment, enllaçar el genoma i el proteoma amb el fenotip i la malaltia, i començar a desenredar les vies genètiques causals i aigües avall associades a la malaltia. .

Podeu parlar d'alguna de les tecnologies d'aprenentatge automàtic que s'utilitza actualment a Seer Bio?

Seer està aprofitant l'aprenentatge automàtic en tots els passos, des del desenvolupament tecnològic fins a l'anàlisi de dades aigües avall. Aquests passos inclouen: (1) el disseny de les nostres nanopartícules patentades, on l'aprenentatge automàtic ens ajuda a determinar quines propietats fisicoquímiques i combinacions de nanopartícules funcionaran amb línies de productes i assajos específics; (2) detecció i quantificació de pèptids, proteïnes, variants i proteoformes a partir de les dades de lectura produïdes a partir dels instruments MS; (3) anàlisis proteòmiques i proteogenòmices aigües avall en cohorts de població a gran escala.

L’any passat, nosaltres va publicar un article a Advanced Materials combinant mètodes de proteòmica, nanoenginyeria i aprenentatge automàtic per millorar la nostra comprensió dels mecanismes de formació de la corona de proteïnes. Aquest article va descobrir interaccions nano-bio i està informant a Seer en la creació de nanopartícules i productes futurs millorats.

Més enllà del desenvolupament de nanopartícules, hem estat desenvolupant nous algorismes per identificar pèptids variants i modificacions post-traduccionals (PTM). Recentment hem desenvolupat un mètode per detecció de loci de trets quantificats de proteïnes (pQTLs) que és robust a les variants de proteïnes, que és un factor de confusió conegut per a la proteòmica basada en l'afinitat. Estem ampliant aquest treball per identificar directament aquests pèptids dels espectres en brut mitjançant mètodes de seqüenciació de novo basats en l'aprenentatge profund per permetre la cerca sense inflar la mida de les biblioteques espectrals.

El nostre equip també està desenvolupant mètodes per permetre als científics sense una gran experiència en aprenentatge automàtic ajustar i utilitzar de manera òptima els models d'aprenentatge automàtic en el seu treball de descobriment. Això s'aconsegueix mitjançant un marc Seer ML basat en el AutoML eina, que permet un ajustament eficient dels hiperparàmetres mitjançant l'optimització bayesiana.

Finalment, estem desenvolupant mètodes per reduir l'efecte del lot i augmentar la precisió quantitativa de la lectura de les especificacions de massa modelant els valors quantitatius mesurats per maximitzar les mètriques esperades, com ara la correlació dels valors d'intensitat entre pèptids dins d'un grup de proteïnes.

Les al·lucinacions són un problema comú amb els LLM, quines són algunes de les solucions per prevenir-ho o mitigar-ho?

Els LLM són mètodes generatius que reben un corpus gran i s'entrenen per generar text similar. Capten les propietats estadístiques subjacents del text en què s'entrenen, des de propietats locals senzilles, com ara la freqüència amb què es troben juntes determinades combinacions de paraules (o fitxes), fins a propietats de nivell superior que emulen la comprensió del context i el significat.

Tanmateix, els LLM no estan formats principalment per ser correctes. L'aprenentatge de reforç amb retroalimentació humana (RLHF) i altres tècniques ajuden a entrenar-los per obtenir propietats desitjables, inclosa la correcció, però no tenen èxit. Si s'indica, els LLM generaran el text que s'assembla més a les propietats estadístiques de les dades d'entrenament. Sovint, aquest text també és correcte. Per exemple, si es pregunta "quan va néixer Alexandre el Gran", la resposta correcta és el 356 aC (o aC), i és probable que un LLM doni aquesta resposta perquè dins de les dades d'entrenament, el naixement d'Alexandre el Gran apareix sovint com aquest valor. Tanmateix, quan se li pregunta "quan va néixer l'emperadriu Reginella", un personatge de ficció no present al corpus de formació, és probable que el LLM al·lucine i creï una història del seu naixement. De la mateixa manera, quan es fa una pregunta per a la qual el LLM pot no recuperar una resposta correcta (ja sigui perquè la resposta correcta no existeix, o per altres finalitats estadístiques), és probable que al·lucine i respongui com si ho sabés. Això crea al·lucinacions que són un problema evident per a aplicacions greus, com ara "com es pot tractar tal o tal càncer".

Encara no hi ha solucions perfectes per a les al·lucinacions. Són endèmics del disseny del LLM. Una solució parcial és la indicació adequada, com ara demanar al LLM que "pensi acuradament, pas a pas", etc. Això augmenta la probabilitat dels LLM de no inventar històries. Un enfocament més sofisticat que s'està desenvolupant és l'ús de gràfics de coneixement. Els gràfics de coneixement proporcionen dades estructurades: les entitats d'un gràfic de coneixement estan connectades amb altres entitats d'una manera lògica i predefinida. Construir un gràfic de coneixement per a un domini determinat és, per descomptat, una tasca difícil, però es pot fer amb una combinació de mètodes i curació automatitzats i estadístics. Amb un gràfic de coneixement integrat, els LLM poden contrastar les declaracions que generen amb el conjunt estructurat de fets coneguts i es poden limitar a no generar una declaració que contradigui o no estigui recolzada pel gràfic de coneixement.

A causa del problema fonamental de les al·lucinacions, i possiblement per la seva manca de capacitats suficients de raonament i judici, els LLM són avui potents per recuperar, connectar i destil·lar informació, però no poden substituir els experts humans en aplicacions serioses com ara el diagnòstic mèdic o l'assessorament legal. Tot i així, poden millorar enormement l'eficiència i la capacitat dels experts humans en aquests dominis.

Pots compartir la teva visió d'un futur on la biologia sigui guiada per dades més que per hipòtesis?

L'enfocament tradicional basat en hipòtesis, que implica que els investigadors trobin patrons, desenvolupin hipòtesis, realitzen experiments o estudis per provar-los i, després, perfeccionen teories basades en les dades, està sent suplantat per un nou paradigma basat en el modelatge basat en dades.

En aquest paradigma emergent, els investigadors comencen amb la generació de dades a gran escala sense hipòtesis. A continuació, entrenen un model d'aprenentatge automàtic com un LLM amb l'objectiu de reconstruir amb precisió les dades ocluïdes, una regressió forta o un rendiment de classificació en una sèrie de tasques posteriors. Una vegada que el model d'aprenentatge automàtic pot predir les dades amb precisió i aconsegueix una fidelitat comparable a la similitud entre les rèpliques experimentals, els investigadors poden interrogar el model per extreure informació sobre el sistema biològic i discernir els principis biològics subjacents.

Els LLM estan demostrant ser especialment bons en la modelització de dades biomoleculars i estan orientats a impulsar un canvi de descobriments biològics basats en hipòtesis a dades. Aquest canvi es farà cada vegada més pronunciat durant els propers 10 anys i permetrà un modelatge precís dels sistemes biomoleculars amb una granularitat que va molt més enllà de la capacitat humana.

Quin és l'impacte potencial per al diagnòstic de malalties i el descobriment de fàrmacs?

Crec que el LLM i la IA generativa comportaran canvis significatius en la indústria de les ciències de la vida. Una àrea que es beneficiarà molt dels LLM és el diagnòstic clínic, específicament per a malalties rares i difícils de diagnosticar i subtipus de càncer. Hi ha una gran quantitat d'informació completa dels pacients que podem aprofitar, des de perfils genòmics, respostes al tractament, registres mèdics i antecedents familiars, per impulsar un diagnòstic precís i oportú. Si podem trobar una manera de recopilar totes aquestes dades de manera que siguin fàcilment accessibles i no aïllades per organitzacions sanitàries individuals, podrem millorar dràsticament la precisió del diagnòstic. Això no vol dir que els models d'aprenentatge automàtic, inclosos els LLM, puguin funcionar de manera autònoma en el diagnòstic. A causa de les seves limitacions tècniques, en un futur previsible no seran autònoms, sinó que augmentaran els experts humans. Seran eines poderoses per ajudar el metge a oferir avaluacions i diagnòstics magníficament informats en una fracció del temps necessari fins ara, i per documentar i comunicar correctament els seus diagnòstics al pacient, així com a tota la xarxa de proveïdors de salut connectats a través de la màquina. sistema d'aprenentatge.

La indústria ja està aprofitant l'aprenentatge automàtic per al descobriment i desenvolupament de fàrmacs, promocionant la seva capacitat per reduir costos i terminis en comparació amb el paradigma tradicional. Els LLM s'afegeixen a la caixa d'eines disponible i ofereixen marcs excel·lents per modelar dades biomoleculars a gran escala, com ara genomes, proteomes, dades genòmiques i epigenòmices funcionals, dades unicel·lulars i molt més. En un futur previsible, els LLM de la fundació, sens dubte, es connectaran a través de totes aquestes modalitats de dades i entre grans cohorts d'individus la informació genòmica, proteòmica i de salut dels quals es reculli. Aquests LLM ajudaran a generar objectius de fàrmacs prometedors, identificaran possibles bosses d'activitat de proteïnes associades a la funció biològica i la malaltia, o suggeriran vies i funcions cel·lulars més complexes que es poden modular d'una manera específica amb molècules petites o altres modalitats de fàrmacs. També podem aprofitar els LLM per identificar els qui responen i els que no responen en funció de la susceptibilitat genètica, o per reutilitzar els fàrmacs en altres indicacions de malaltia. Sens dubte, moltes de les empreses innovadores de descobriment de fàrmacs basades en IA ja estan començant a pensar i desenvolupar-se en aquesta direcció, i hauríem d'esperar veure la formació d'empreses addicionals, així com els esforços públics dirigits al desplegament de LLM en salut humana i medicaments. descobriment.

Gràcies per l'entrevista detallada, els lectors que vulguin obtenir més informació haurien de visitar Vist.

Soci fundador de unit.AI i membre de la Consell Tecnològic de Forbes, Antoine és un futurista apassionat pel futur de la IA i la robòtica.

També és el fundador de Securities.io, un lloc web que se centra a invertir en tecnologia disruptiva.