Stumm Dr Serafim Batzoglou, Chief Data Officer bei Seer - Interview Series - Unite.AI
Connect mat eis

Interviewen

Dr Serafim Batzoglou, Chief Data Officer bei Seer - Interview Series

mm

publizéiert

 on

Serafim Batzoglou ass Chief Data Officer bei Gesiichter. Ier hien de Seer ugeschloss huet, huet de Serafim als Chief Data Officer bei Insitro gedéngt, fir Maschinnléieren an Datewëssenschaften an hirer Approche zur Drogenentdeckung ze féieren. Virun Insitro huet hien als VP vun Applied and Computational Biology bei Illumina gedéngt, féiert Fuerschung an Technologie Entwécklung vun AI a molekulare Assays fir genomesch Daten méi interpretéierbar an der mënschlecher Gesondheet ze maachen.

Wat huet Iech ufanks zum Gebitt vun der Genomik ugezunn?

Ech hunn mech am Beräich vun der Berechnungsbiologie um Ufank vu menger Doktorat an der Informatik um MIT interesséiert, wéi ech eng Klass iwwer d'Thema gemaach hunn, geléiert vum Bonnie Berger, deen mäi PhD Beroder gouf, an dem David Gifford. De mënschleche Genom-Projet huet während menger Doktorand ugefaang. Den Eric Lander, deen de Genome Center um MIT geleet huet, gouf mäi PhD Co-Beroder an huet mech am Projet bedeelegt. Motivéiert vum mënschleche Genom-Projet hunn ech un der ganzer-Genom-Versammlung a komparativer Genomik vu Mënsch- a Maus-DNA geschafft.

Ech sinn dunn op d'Stanford University als Fakultéit am Computer Science Departement geplënnert, wou ech 15 Joer verbruecht hunn, a war privilegiéiert ongeféier 30 onheemlech talentéiert PhD Studenten a vill Postdoctoral Fuerscher a Undergraduates beroden ze hunn. De Fokus vun mengem Team war d'Applikatioun vun Algorithmen, Maschinnléieren a Software-Tools fir d'Analyse vu grouss-Skala genomesch a biomolekulare Daten. Ech hunn Stanford am Joer 2016 verlooss fir e Fuerschungs- an Technologieentwécklungsteam bei Illumina ze féieren. Zënterhier hunn ech genoss R&D Teams an der Industrie ze féieren. Ech fannen datt Teamwork, de Geschäftsaspekt, an e méi direkten Impakt op d'Gesellschaft charakteristesch sinn fir d'Industrie am Verglach mat der Akademie. Ech hunn iwwer meng Carrière bei innovative Firmen geschafft: DNAnexus, déi ech 2009 matgegrënnt hunn, Illumina, Insitro an elo Seer. Berechnung a Maschinnléiere si wesentlech iwwer d'Technologiekette am Biotech, vun der Technologieentwécklung, op Datenacquisitioun, bis zur biologescher Dateinterpretatioun an Iwwersetzung op mënschlech Gesondheet.

An de leschten 20 Joer ass d'Sequenzéierung vum mënschleche Genom vill méi bëlleg a méi séier ginn. Dëst huet zu dramateschen Wuesstum am Genom Sequenzéierungsmaart a méi breet Adoptioun an der Liewenswëssenschaftsindustrie gefouert. Mir sinn elo op der Spëtzt vun der Populatioun genomesch, multi-omesch a phänotypesch Daten vu genuch Gréisst fir sënnvoll Gesondheetsversuergung ze revolutionéieren, dorënner Präventioun, Diagnos, Behandlung an Drogenentdeckung. Mir kënnen ëmmer méi de molekulare Grondlag vun der Krankheet fir Individuen duerch computational Analyse vu genomeschen Donnéeën entdecken, a Patienten hunn d'Chance Behandlungen ze kréien, déi personaliséiert a gezielt sinn, besonnesch an de Beräicher vu Kriibs a seltener genetescher Krankheet. Nieft dem offensichtleche Gebrauch an der Medizin, Maschinnléiere gekoppelt mat genomesch Informatioun erlaabt eis Abléck an aner Beräicher vun eisem Liewen ze kréien, sou wéi eis Genealogie an Ernährung. Déi nächst e puer Joer wäerten d'Adoptioun vu personaliséierter, date-driven Gesondheetsariichtung gesinn, fir d'éischt fir ausgewielte Gruppe vu Leit, sou wéi selten Krankheetspatienten, an ëmmer méi fir de breede Public.

Virun Ärer aktueller Roll war Dir Chief Data Officer bei Insitro, Virwaat Maschinn Léieren an Daten Wëssenschaft an hirer Approche zu Drogenofhängeger Entdeckung. Wat waren e puer vun Äre Schlëssel Takeaways aus dëser Zäitperiod mat wéi Maschinnléiere ka benotzt ginn fir Drogenentdeckung ze beschleunegen?

D'konventionell Medikamententdeckung an Entwécklung "Trial-and-Error" Paradigma ass geplot mat Ineffizienz an extrem laang Zäitlinnen. Fir een Medikament op de Maart ze kommen, kann et méi wéi 1 Milliard Dollar an iwwer e Jorzéngt daueren. Andeems Dir Maschinnléieren an dësen Efforten integréiert, kënne mir d'Käschte an d'Zäitframe dramatesch reduzéieren a verschidde Schrëtt um Wee. Ee Schrëtt ass Zilidentifikatioun, wou e Gen oder Set vun Genen, déi e Krankheetsphenotyp moduléieren oder e Krankheetszelluläre Staat an e méi gesonde Staat zréckzéien, duerch grouss-Skala genetesch a chemesch Stéierungen identifizéiert kënne ginn, a phänotypesch Ausliesen wéi Imaging a funktionell Genomik. . En anere Schrëtt ass d'Verbindungsidentifikatioun an d'Optimiséierung, wou e klengt Molekül oder aner Modalitéit ka designt ginn duerch Maschinnléiere-gedriwwen a Silico-Prognose wéi och in vitro Screening, an och gewënschte Eegeschafte vun engem Medikament wéi Solubilitéit, Permeabilitéit, Spezifizitéit an Net- Toxizitéit kann optimiséiert ginn. Den haardsten wéi och de wichtegsten Aspekt ass vläicht Iwwersetzung op Mënschen. Hei, d'Wiel vum richtege Modell - induzéiert pluripotent Stammzell-ofgeleet Linnen versus primär Patientzelllinnen an Tissueproben versus Déieremodeller - fir déi richteg Krankheet stellt eng onheemlech wichteg Rei vun Ofsaz, déi schlussendlech iwwer d'Fäegkeet vun den resultéierende Daten plus Maschinn reflektéieren Léiere fir Patienten ze iwwersetzen.

Seer Bio pionéiert nei Weeër fir d'Geheimnisser vum Proteom ze dekodéieren fir d'mënschlech Gesondheet ze verbesseren, fir Lieser déi net mat dësem Begrëff vertraut sinn wat ass de Proteom?

d' proteom ass de verännerende Set vu Proteine ​​​​produzéiert oder geännert vun engem Organismus iwwer Zäit an als Äntwert op d'Ëmwelt, d'Ernährung an d'Gesondheetszoustand. Proteomics ass d'Studie vum Proteom an enger bestëmmter Zelltyp oder Tissueprobe. De Genom vun engem Mënsch oder aneren Organismen ass statesch: mat der wichteger Ausnam vu somatesche Mutatiounen ass de Genom bei der Gebuert de Genom, deen een hiert ganzt Liewen huet, genee an all Zell vun hirem Kierper kopéiert. De Proteom ass dynamesch a ännert sech an den Zäitspann vu Joeren, Deeg a souguer Minutten. Als solch sinn Proteome vill méi no beim Phänotyp a schlussendlech dem Gesondheetszoustand wéi Genomen, an doduerch méi informativ fir d'Gesondheet ze iwwerwaachen an d'Krankheet ze verstoen.

Bei Seer hu mir en neie Wee entwéckelt fir Zougang zum Proteom ze kréien deen méi déif Abléck an Proteinen a Proteoformen a komplexe Proben wéi Plasma ubitt, wat eng héich zougänglech Probe ass, déi leider bis haut eng grouss Erausfuerderung fir konventionell Massspektrometrie-Proteomik gestallt huet.

Wat ass d'Seer's Proteograph ™ Plattform a wéi bitt et eng nei Vue op d'Proteome?

Dem Seer seng Proteograph Plattform profitéiert eng Bibliothéik vu propriétaire konstruéierten Nanopartikelen, ugedriwwe vun engem einfachen, schnellen an automatiséierte Workflow, wat déif a skalierbar Ufro vum Proteome erméiglecht.

D'Proteograph Plattform blénkt am Interrogatioun vu Plasma an aner komplexe Proben, déi e grousst dynamescht Spektrum weisen - vill Uerderen vun der Gréisst Differenz an der Heefegkeet vu verschiddene Proteinen an der Probe - wou konventionell Massespektrometriemethoden net fäeg sinn den nidderegen Heefegkeet Deel vum Proteom z'entdecken. Dem Seer seng Nanopartikele si konstruéiert mat tunablen physiochemeschen Eegeschaften déi Proteine ​​​​iwwer dem dynamesche Beräich op eng onparteiesch Manéier sammelen. An typesche Plasma Echantillon erlaabt eis Technologie Detektioun vu 5x bis 8x méi Proteinen wéi wann Dir propper Plasma veraarbecht ouni de Proteograph ze benotzen. Als Resultat, vu Probevirbereedung bis Instrumentatioun bis Datenanalyse, hëlleft eis Proteograph Product Suite Wëssenschaftler Proteome Krankheet Ënnerschrëften ze fannen déi soss net z'erkennen. Mir soen gären datt mir bei Seer en neie Paart zum Proteome opmaachen.

Ausserdeem erlaben mir d'Wëssenschaftler einfach grouss proteogenomesch Studien auszeféieren. Proteogenomics ass d'Kombinatioun vu genomeschen Donnéeën mat proteomeschen Donnéeën fir Proteinvarianten z'identifizéieren an ze quantifizéieren, genomesch Varianten mat Protein Iwwerflossniveauen ze verbannen, a schlussendlech de Genom an d'Proteom mat Phänotyp a Krankheet ze verbannen, a fänken un déi kausal an downstream genetesch Weeër verbonne mat der Krankheet ze disentangelen. .

Kënnt Dir e puer vun der Maschinn Léieren Technologie diskutéieren déi am Moment bei Seer Bio benotzt gëtt?

Seer profitéiert Maschinnléieren op all Schrëtt vun der Technologieentwécklung bis Downstream Datenanalyse. Dës Schrëtt enthalen: (1) Design vun eise propriétaire Nanopartikelen, wou Maschinnléiere hëlleft eis ze bestëmmen wéi eng physeschchemesch Eegeschaften a Kombinatioune vun Nanopartikelen mat spezifesche Produktlinnen an Assays funktionnéieren; (2) Detektioun a Quantifikatioun vu Peptiden, Proteinen, Varianten a Proteoformen aus de Liesdaten aus den MS Instrumenter produzéiert; (3) Downstream proteomesch a proteogenomesch Analysen a grousser Bevëlkerungskohorten.

Lescht Joer hu mir publizéiert e Pabeier am Advanced Materials d'Kombinatioun vun Proteomics Methoden, Nanoengineering a Maschinnléiere fir eist Verständnis vun de Mechanismen vun der Protein Corona Bildung ze verbesseren. Dëse Pabeier huet Nano-Bio Interaktiounen opgedeckt an informéiert Seer an der Schafung vu verbesserten zukünftege Nanopartikelen a Produkter.

Iwwert Nanopartikelentwécklung hu mir eis entwéckelt Roman Algorithmen fir Variant Peptiden a post-translational Modifikatiounen z'identifizéieren (PTM). Mir entwéckelt kuerzem eng Method fir Detektioun vu Protein quantifizéierter Trait Loci (pQTLs) déi robust ass fir Proteinvarianten, wat e bekannte Konfounder fir Affinitéit-baséiert Proteomik ass. Mir verlängeren dës Aarbecht fir dës Peptiden direkt aus de roude Spektra z'identifizéieren mat Deep Learning-baséiert de novo Sequenzéierungsmethoden fir d'Sich z'erméiglechen ouni d'Gréisst vun de Spektralbibliothéiken opzebauen.

Eist Team entwéckelt och Methoden fir Wëssenschaftler ouni déif Expertise am Maschinnléieren z'erméiglechen fir d'Maschinn Léiermodeller an hirer Entdeckungsaarbecht optimal ze stëmmen an ze benotzen. Dëst gëtt erreecht iwwer e Seer ML Kader baséiert op der AutoML Tool, wat effizient Hyperparametertuning iwwer Bayesian Optimiséierung erlaabt.

Schlussendlech entwéckelen mir Methoden fir de Batch-Effekt ze reduzéieren an d'quantitativ Genauegkeet vun der Mass Spezifizéierung ze erhéijen andeems déi gemoossene quantitative Wäerter modelléiert fir erwaart Metriken ze maximéieren wéi d'Korrelatioun vun Intensitéitswäerter iwwer Peptiden bannent enger Proteingrupp.

Halluzinatiounen sinn e gemeinsame Problem mat LLMs, wat sinn e puer vun de Léisunge fir dëst ze vermeiden oder ze reduzéieren?

LLMs sinn generativ Methoden déi e grousse Corpus kréien a trainéiert gi fir ähnlechen Text ze generéieren. Si erfaassen déi ënnerierdesch statistesch Eegeschafte vum Text op deem se trainéiert ginn, vun einfache lokalen Eegeschafte wéi wéi dacks verschidde Kombinatioune vu Wierder (oder Tokens) zesumme fonnt ginn, bis méi héije Niveau Eegeschaften déi Verständnis vu Kontext a Bedeitung emuléieren.

Wéi och ëmmer, LLMs sinn net primär trainéiert fir korrekt ze sinn. Verstäerkung Léieren mat mënschleche Feedback (RLHF) an aner Techniken hëllefen hinnen ze trainéieren fir wënschenswäert Eegeschafte dorënner Richtegkeet, awer sinn net voll erfollegräich. Gitt eng Prompt, wäerten LLMs Text generéieren deen am meeschte gläicht op déi statistesch Eegeschafte vun den Trainingsdaten. Dacks ass dësen Text och richteg. Zum Beispill, wann gefrot "wéini gouf den Alexander de Grousse gebuer", ass déi richteg Äntwert 356 v. Wéi och ëmmer, wann se gefrot ginn "wéini gouf d'Keeserin Reginella gebuer", e fiktiven Charakter deen net am Trainingskorpus präsent ass, ass d'LLM méiglecherweis halluzinéieren an eng Geschicht vun hirer Gebuert erstellen. Ähnlech, wann eng Fro gestallt gëtt, op déi den LLM vläicht keng richteg Äntwert kritt (entweder well déi richteg Äntwert net existéiert, oder fir aner statistesch Zwecker), ass et méiglecherweis halluzinéieren an äntweren wéi wann et weess. Dëst schaaft Halluzinatiounen déi en offensichtleche Problem fir sérieux Uwendungen sinn, wéi "wéi kann esou an esou Kriibs behandelt ginn."

Et gi keng perfekt Léisunge fir Halluzinatiounen nach. Si sinn endemesch zum Design vum LLM. Eng deelweis Léisung ass richteg Ufroen, wéi zum Beispill de LLM froen "virsiichteg ze denken, Schrëtt-fir-Schrëtt," a sou weider. Dëst erhéicht d'LLMs Wahrscheinlechkeet fir net Geschichten ze concoctéieren. Eng méi sophistikéiert Approche déi entwéckelt gëtt ass d'Benotzung vu Wëssensgrafiken. Wëssensgrafiken liwweren strukturéiert Daten: Entitéiten an enger Wëssensgrafik si mat aneren Entitéiten op eng virdefinéiert, logesch Manéier verbonnen. Eng Wëssensgrafik fir e bestëmmten Domain ze konstruéieren ass natierlech eng Erausfuerderung Aufgab awer machbar mat enger Kombinatioun vun automatiséierten a statistesche Methoden a Curation. Mat enger agebauter Wëssensgrafik kënnen LLMs d'Aussoen iwwerpréiwen déi se generéieren géint de strukturéierte Set vu bekannte Fakten, a kënne limitéiert sinn fir keng Ausso ze generéieren déi widdersprécht oder net vun der Wëssensgrafik ënnerstëtzt gëtt.

Wéinst der fundamentaler Fro vun Halluzinatiounen, a wahrscheinlech wéinst hirem Mangel u genuch Begrënnung an Uerteelfäegkeeten, sinn LLMs haut mächteg fir Informatioun z'erhalen, ze verbannen an ze distilléieren, awer kënnen net mënschlech Experten a seriöse Applikatiounen ersetzen wéi medizinesch Diagnos oder juristesch Berodung. Trotzdem kënne se d'Effizienz an d'Fäegkeet vu mënschlechen Experten an dësen Domainen enorm verbesseren.

Kënnt Dir Är Visioun fir eng Zukunft deelen, wou d'Biologie duerch Daten gestéiert gëtt anstatt Hypothesen?

Déi traditionell Hypothese-Undriff Approche, déi Fuerscher involvéiert Musteren ze fannen, Hypothesen z'entwéckelen, Experimenter oder Studien auszeféieren fir se ze testen, an dann Theorien op Basis vun den Daten ze verfeineren, gëtt vun engem neie Paradigma ersat baséiert op date-driven Modeller.

An dësem opkomende Paradigma fänken d'Fuerscher mat hypothesefräien, grousser Dategeneratioun un. Dann trainéiere se e Maschinnléiermodell wéi en LLM mam Zil vun enger korrekter Rekonstruktioun vun verstoppten Donnéeën, staarker Regressioun oder Klassifikatiounsleeschtung an enger Zuel vun Downstream Aufgaben. Wann d'Maschinn Léiermodell d'Daten präzis viraussoe kann, an d'Vertraulechkeet vergläichbar mat der Ähnlechkeet tëscht experimentellen Replikaten erreecht, kënnen d'Fuerscher de Modell ausféieren fir Abléck iwwer de biologesche System ze extrahieren an déi ënnerierdesch biologesch Prinzipien z'erkennen.

LLMs beweisen sech besonnesch gutt bei der modellering vun biomolekulare Donnéeën, a si geriicht fir eng Verréckelung vun Hypothese-gedriwwen op date-driven biologescher Entdeckung ze brennen. Dës Verréckelung wäert an den nächsten 10 Joer ëmmer méi ausgeschwat ginn an erlaabt eng korrekt Modelléierung vu biomolekulare Systemer mat enger Granularitéit déi wäit iwwer d'mënschlech Kapazitéit geet.

Wat ass de potenziellen Impakt fir Diagnostik an Drogenentdeckung?

Ech gleewen datt LLM a generativ AI zu bedeitende Verännerungen an der Liewenswëssenschaftsindustrie féieren. Ee Beräich dat vill vun LLMs profitéiere wäert ass klinesch Diagnostik, speziell fir selten, schwéier ze diagnostizéieren Krankheeten a Kriibssubtypen. Et ginn enorm Quantitéiten un ëmfaassend Patientinformatioun, op déi mir kënne profitéieren - vu genomesche Profiler, Behandlungsreaktiounen, medizinesch records a Familljegeschicht - fir eng korrekt a rechtzäiteg Diagnos ze féieren. Wa mir e Wee fannen fir all dës Donnéeën ze kompiléieren sou datt se liicht zougänglech sinn, an net vun eenzelne Gesondheetsorganisatiounen ofgeschnidden sinn, kënne mir d'Diagnostik Präzisioun dramatesch verbesseren. Dëst ass net ze implizéieren datt d'Maschinn Léiermodeller, dorënner LLMs, fäeg sinn autonom an der Diagnostik operéieren. Wéinst hiren techneschen Aschränkungen wäerte se an absehbarer Zukunft net autonom sinn, mä amplaz wäerten se mënschlech Experten erhéijen. Si wäerte mächteg Tools sinn fir den Dokter ze hëllefen exzellent informéiert Bewäertungen an Diagnosen an enger Ëmwandlung vun der Zäit déi bis elo gebraucht gëtt, an hir Diagnosen dem Patient korrekt ze dokumentéieren an ze vermëttelen wéi och un dat ganzt Netzwierk vun de Gesondheetsbetreiber, déi duerch d'Maschinn verbonne sinn. Léiersystem.

D'Industrie benotzt scho Maschinnléiere fir Medikamententdeckung an Entwécklung, a weist seng Fäegkeet fir Käschten an Zäitlinnen ze reduzéieren am Verglach zum traditionelle Paradigma. LLMs addéieren weider zur verfügbarer Toolbox, a liwweren exzellent Kaderen fir grouss-Skala biomolekulare Donnéeën ze modelléieren, dorënner Genome, Proteome, funktionell genomesch an epigenomesch Donnéeën, Single-Zell Daten, a méi. An absehbarer Zukunft wäerten d'Stëftung LLMs ouni Zweifel iwwer all dës Datemodalitéite verbannen an iwwer grouss Kohorten vun Individuen deenen hir genomesch, proteomesch a Gesondheetsinformatioun gesammelt gëtt. Esou LLMs hëllefe bei der Generatioun vu villverspriechend Medikamentziler, identifizéieren méiglech Taschen vun Aktivitéit vu Proteinen, déi mat biologescher Funktioun a Krankheet assoziéiert sinn, oder proposéiert Weeër a méi komplex cellulär Funktiounen, déi op eng spezifesch Manéier mat klenge Molekülen oder aner Drogenmodalitéite moduléiert kënne ginn. Mir kënnen och op LLMs tippen fir Drogenresponderen an Net-Responderen ze identifizéieren op Basis vun der genetescher Empfindlechkeet, oder Drogen an aner Krankheetsindikatiounen ze repurpose. Vill vun den existenten innovativen AI-baséierten Medikamententdeckungsfirmen fänken ouni Zweifel schon an dës Richtung ze denken an z'entwéckelen, a mir sollten erwaarden d'Bildung vun zousätzlech Firmen wéi och ëffentlech Efforten ze gesinn, déi op d'Deployment vun LLMs an der mënschlecher Gesondheet an Drogen zielen. Entdeckung.

Merci fir den detailléierten Interview, Lieser déi méi gewuer ginn solle besichen Gesiichter.

A founding partner of unite.AI & e Member vun der Forbes Technology Council, Den Antoine ass a futuristesch déi passionéiert ass iwwer d'Zukunft vun AI & Robotik.

Hien ass och de Grënner vun Securities.io, eng Websäit déi sech op d'Investitioun an d'Stéierungstechnologie konzentréiert.