stub Dr. Serafim Batzoglou, Chief Data Officer hos Seer - Intervjuserier - Unite.AI
Kontakt med oss

intervjuer

Dr. Serafim Batzoglou, Chief Data Officer hos Seer – Intervjuserien

mm

Publisert

 on

Serafim Batzoglou er Chief Data Officer i seer. Før han begynte i Seer, fungerte Serafim som Chief Data Officer hos Insitro, og ledet maskinlæring og datavitenskap i deres tilnærming til legemiddeloppdagelse. Før Insitro fungerte han som VP for Applied and Computational Biology hos Illumina, og ledet forskning og teknologiutvikling av AI og molekylære analyser for å gjøre genomiske data mer tolkbare i menneskers helse.

Hva tiltrakk deg i utgangspunktet til feltet genomikk?

Jeg ble interessert i feltet beregningsbiologi ved starten av min doktorgrad i informatikk ved MIT, da jeg tok en klasse om emnet som ble undervist av Bonnie Berger, som ble min PhD-rådgiver, og David Gifford. Det menneskelige genom-prosjektet tok fart under doktorgraden min. Eric Lander, som ledet Genome Center ved MIT, ble min PhD-medrådgiver og involverte meg i prosjektet. Motivert av det menneskelige genom-prosjektet jobbet jeg med hel-genomsammenstilling og komparativ genomikk av menneskelig og muse-DNA.

Jeg flyttet deretter til Stanford University som fakultet ved informatikkavdelingen hvor jeg tilbrakte 15 år, og var privilegert som har gitt råd til rundt 30 utrolig talentfulle PhD-studenter og mange postdoktorer og studenter. Teamets fokus har vært bruken av algoritmer, maskinlæring og programvareverktøy for analyse av storskala genomiske og biomolekylære data. Jeg forlot Stanford i 2016 for å lede et forsknings- og teknologiutviklingsteam hos Illumina. Siden den gang har jeg likt å lede FoU-team i industrien. Jeg opplever at teamarbeid, forretningsaspektet og en mer direkte påvirkning på samfunnet er karakteristisk for industri sammenlignet med akademia. Jeg jobbet i innovative selskaper i løpet av min karriere: DNAnexus, som jeg var med å grunnlegge i 2009, Illumina, insitro og nå Seer. Beregning og maskinlæring er avgjørende på tvers av teknologikjeden innen bioteknologi, fra teknologiutvikling, til datainnsamling, til biologisk datatolkning og oversettelse til menneskers helse.

I løpet av de siste 20 årene har sekvensering av det menneskelige genomet blitt mye billigere og raskere. Dette førte til dramatisk vekst i genomsekvenseringsmarkedet og bredere adopsjon i biovitenskapsindustrien. Vi er nå i ferd med å ha populasjonsgenomiske, multiomiske og fenotypiske data av tilstrekkelig størrelse til å revolusjonere helsevesenet på en meningsfylt måte, inkludert forebygging, diagnose, behandling og medikamentoppdagelse. Vi kan i økende grad oppdage det molekylære grunnlaget for sykdom for individer gjennom beregningsanalyse av genomiske data, og pasienter har sjansen til å motta behandlinger som er tilpasset og målrettet, spesielt innen kreft og sjelden genetisk sykdom. Utover den åpenbare bruken i medisin, lar maskinlæring kombinert med genomisk informasjon oss få innsikt i andre områder av livet vårt, for eksempel vår slektsforskning og ernæring. I de neste årene vil persontilpasset, datadrevet helsevesen bli tatt i bruk, først for utvalgte grupper av mennesker, som pasienter med sjeldne sykdommer, og i økende grad for den brede offentligheten.

Før din nåværende stilling var du Chief Data Officer i Insitro, ledende maskinlæring og datavitenskap i deres tilnærming til legemiddeloppdagelse. Hva var noen av de viktigste kildene dine fra denne tidsperioden med hvordan maskinlæring kan brukes til å akselerere oppdagelsen av legemidler?

Det konvensjonelle legemiddeloppdagelsen og -utviklingen "prøv-og-feil"-paradigmet er plaget med ineffektivitet og ekstremt lange tidslinjer. For ett medikament å komme på markedet, kan det ta oppover 1 milliard dollar og over et tiår. Ved å inkludere maskinlæring i denne innsatsen kan vi dramatisk redusere kostnader og tidsrammer i flere trinn på veien. Ett trinn er målidentifikasjon, der et gen eller sett med gener som modulerer en sykdomsfenotype eller reverserer en sykdomscellulær tilstand til en mer sunn tilstand, kan identifiseres gjennom storskala genetiske og kjemiske forstyrrelser, og fenotypiske avlesninger som avbildning og funksjonell genomikk. . Et annet trinn er identifikasjon og optimalisering av forbindelser, der et lite molekyl eller annen modalitet kan designes ved maskinlæringsdrevet i silico-prediksjon samt in vitro-screening, og dessuten ønskede egenskaper til et medikament som løselighet, permeabilitet, spesifisitet og ikke- toksisitet kan optimaliseres. Det vanskeligste og viktigste aspektet er kanskje oversettelse til mennesker. Her utgjør valg av riktig modell – induserte pluripotente stamcelleavledede linjer versus primære pasientcellelinjer og vevsprøver versus dyremodeller – for den rette sykdommen et utrolig viktig sett av avveininger som til slutt reflekterer evnen til de resulterende dataene pluss maskinen lære å oversette til pasienter.

Seer Bio er banebrytende for nye måter å dekode proteomets hemmeligheter for å forbedre menneskers helse, for lesere som ikke er kjent med dette begrepet, hva er proteomet?

De proteom er det skiftende settet av proteiner produsert eller modifisert av en organisme over tid og som respons på miljø, ernæring og helsetilstand. Proteomikk er studiet av proteomet i en gitt celletype eller vevsprøve. Genomet til et menneske eller andre organismer er statisk: med unntak av somatiske mutasjoner, er genomet ved fødselen genomet man har hele livet, kopiert nøyaktig i hver celle i kroppen. Proteomet er dynamisk og endres i tidsspenn på år, dager og til og med minutter. Som sådan er proteomer mye nærmere fenotype og til slutt helsestatus enn genomer, og følgelig mer informative for å overvåke helse og forstå sykdom.

Hos Seer har vi utviklet en ny måte å få tilgang til proteomet som gir dypere innsikt i proteiner og proteoformer i komplekse prøver som plasma, som er en svært tilgjengelig prøve som dessverre til dags dato har vært en stor utfordring for konvensjonell massespektrometri proteomikk.

Hva er Seer's Proteograph™-plattformen og hvordan gir den et nytt syn på proteomet?

Seers Proteograph-plattform utnytter et bibliotek av proprietære konstruerte nanopartikler, drevet av en enkel, rask og automatisert arbeidsflyt, som muliggjør dyp og skalerbar utspørring av proteomet.

Proteograph-plattformen skinner i utspørring av plasma og andre komplekse prøver som viser stort dynamisk område - mange størrelsesordensforskjeller i mengden av forskjellige proteiner i prøven - der konvensjonelle massespektrometrimetoder ikke er i stand til å oppdage delen med lav overflod av proteomet. Seers nanopartikler er konstruert med justerbare fysiokjemiske egenskaper som samler proteiner over det dynamiske området på en objektiv måte. I typiske plasmaprøver muliggjør teknologien vår deteksjon av 5x til 8x flere proteiner enn når man behandler ren plasma uten bruk av Proteograph. Som et resultat, fra prøveforberedelse til instrumentering til dataanalyse, hjelper vår Proteograph Product Suite forskere med å finne proteomsykdomssignaturer som ellers kan være uoppdagelige. Vi liker å si at på Seer åpner vi opp en ny inngangsport til proteomet.

Videre lar vi forskere enkelt utføre store proteogenomiske studier. Proteogenomics er kombinasjonen av genomiske data med proteomiske data for å identifisere og kvantifisere proteinvarianter, koble genomiske varianter med proteinoverflodsnivåer, og til slutt koble genomet og proteomet til fenotype og sykdom, og begynne å skille de kausale og nedstrøms genetiske veiene assosiert med sykdom. .

Kan du diskutere noe av maskinlæringsteknologien som for tiden brukes på Seer Bio?

Seer utnytter maskinlæring i alle trinn fra teknologiutvikling til nedstrøms dataanalyse. Disse trinnene inkluderer: (1) design av våre proprietære nanopartikler, der maskinlæring hjelper oss å bestemme hvilke fysisk-kjemiske egenskaper og kombinasjoner av nanopartikler som vil fungere med spesifikke produktlinjer og analyser; (2) påvisning og kvantifisering av peptider, proteiner, varianter og proteoformer fra avlesningsdata produsert fra MS-instrumentene; (3) nedstrøms proteomiske og proteogenomiske analyser i storskala befolkningskohorter.

I fjor, vi publiserte en artikkel i Advanced Materials ved å kombinere proteomikkmetoder, nanoteknikk og maskinlæring for å forbedre vår forståelse av mekanismene for dannelse av proteinkorona. Denne artikkelen avdekket nano-bio-interaksjoner og informerer Seer om å lage forbedrede fremtidige nanopartikler og produkter.

Utover nanopartikkelutvikling har vi utviklet oss nye algoritmer for å identifisere varianter av peptider og post-translasjonelle modifikasjoner (PTM-er). Vi har nylig utviklet en metode for påvisning av proteinkvantifiserte egenskapsloci (pQTLs) som er robust for proteinvarianter, som er en kjent forveksling for affinitetsbasert proteomikk. Vi utvider dette arbeidet til å identifisere disse peptidene direkte fra de rå spektrene ved å bruke dyplæringsbaserte de novo-sekvenseringsmetoder for å tillate søk uten å blåse opp størrelsen på spektralbibliotekene.

Teamet vårt utvikler også metoder for å gjøre det mulig for forskere uten dyp ekspertise innen maskinlæring å optimalisere og bruke maskinlæringsmodeller i deres oppdagelsesarbeid. Dette oppnås via et Seer ML-rammeverk basert på AutoML verktøy, som tillater effektiv hyperparameterinnstilling via Bayesiansk optimalisering.

Til slutt utvikler vi metoder for å redusere batcheffekten og øke den kvantitative nøyaktigheten til massespesifikasjonsavlesningen ved å modellere de målte kvantitative verdiene for å maksimere forventede beregninger som korrelasjon av intensitetsverdier på tvers av peptider i en proteingruppe.

Hallusinasjoner er et vanlig problem med LLM, hva er noen av løsningene for å forhindre eller dempe dette?

LLM-er er generative metoder som får et stort korpus og er opplært til å generere lignende tekst. De fanger opp de underliggende statistiske egenskapene til teksten de er trent på, fra enkle lokale egenskaper som hvor ofte visse kombinasjoner av ord (eller tokens) finnes sammen, til høyere nivåegenskaper som emulerer forståelse av kontekst og mening.

LLM-er er imidlertid ikke først og fremst opplært til å være korrekte. Forsterkende læring med menneskelig tilbakemelding (RLHF) og andre teknikker hjelper til med å trene dem for ønskelige egenskaper inkludert korrekthet, men er ikke fullt ut vellykket. Gitt en melding vil LLM-er generere tekst som ligner mest på de statistiske egenskapene til treningsdataene. Ofte er også denne teksten korrekt. For eksempel, hvis du blir spurt «når ble Alexander den Store født», er det riktige svaret 356 f.Kr. (eller f.Kr.), og en LLM vil sannsynligvis gi det svaret fordi i opplæringsdataene vises Alexander den Stores fødsel ofte som denne verdien. Men når spørsmålet "når ble keiserinne Reginella født", en fiktiv karakter som ikke er til stede i treningskorpuset, vil LLM sannsynligvis hallusinere og lage en historie om hennes fødsel. På samme måte, når det stilles et spørsmål som LLM kanskje ikke henter et riktig svar på (enten fordi det riktige svaret ikke eksisterer, eller for andre statistiske formål), er det sannsynlig at den hallusinerer og svarer som om den vet. Dette skaper hallusinasjoner som er et åpenbart problem for alvorlige bruksområder, for eksempel "hvordan kan slik og slik kreft behandles."

Det finnes ingen perfekte løsninger for hallusinasjoner ennå. De er endemiske for utformingen av LLM. En delløsning er riktig spørsmål, for eksempel å be LLM om å "tenke nøye, steg-for-steg," og så videre. Dette øker LLMs sannsynlighet for ikke å lage historier. En mer sofistikert tilnærming som er under utvikling er bruk av kunnskapsgrafer. Kunnskapsgrafer gir strukturerte data: enheter i en kunnskapsgraf er koblet til andre enheter på en forhåndsdefinert, logisk måte. Å konstruere en kunnskapsgraf for et gitt domene er selvfølgelig en utfordrende oppgave, men mulig med en kombinasjon av automatiserte og statistiske metoder og kurering. Med en innebygd kunnskapsgraf kan LLM-er krysssjekke utsagnene de genererer mot det strukturerte settet av kjente fakta, og kan begrenses til å ikke generere en utsagn som motsier eller ikke støttes av kunnskapsgrafen.

På grunn av det grunnleggende problemet med hallusinasjoner, og uten tvil på grunn av deres mangel på tilstrekkelig resonnement og dømmekraft, er LLM-er i dag kraftige for å hente, koble til og destillere informasjon, men kan ikke erstatte menneskelige eksperter i alvorlige bruksområder som medisinsk diagnose eller juridisk rådgivning. Likevel kan de forbedre effektiviteten og kapasiteten til menneskelige eksperter på disse områdene enormt.

Kan du dele din visjon for en fremtid der biologi styres av data i stedet for hypoteser?

Den tradisjonelle hypotesedrevne tilnærmingen, som innebærer at forskere finner mønstre, utvikler hypoteser, utfører eksperimenter eller studier for å teste dem, og deretter foredler teorier basert på dataene, blir erstattet av et nytt paradigme basert på datadrevet modellering.

I dette nye paradigmet starter forskere med hypotesefri, storskala datagenerering. Deretter trener de en maskinlæringsmodell som en LLM med mål om nøyaktig rekonstruksjon av okkluderte data, sterk regresjon eller klassifiseringsytelse i en rekke nedstrømsoppgaver. Når maskinlæringsmodellen kan forutsi dataene nøyaktig, og oppnår troskap som kan sammenlignes med likheten mellom eksperimentelle replikater, kan forskere spørre modellen for å trekke ut innsikt om det biologiske systemet og skjelne de underliggende biologiske prinsippene.

LLM-er viser seg å være spesielt gode når det gjelder modellering av biomolekylære data, og er rettet til å drive et skifte fra hypotesedrevet til datadrevet biologisk funn. Dette skiftet vil bli stadig mer uttalt i løpet av de neste 10 årene og tillate nøyaktig modellering av biomolekylære systemer med en granularitet som går langt utover menneskelig kapasitet.

Hva er den potensielle innvirkningen for sykdomsdiagnostikk og legemiddeloppdagelse?

Jeg tror LLM og generativ AI vil føre til betydelige endringer i biovitenskapsindustrien. Et område som vil ha stor nytte av LLM er klinisk diagnose, spesielt for sjeldne, vanskelig å diagnostisere sykdommer og kreftsubtyper. Det er enorme mengder omfattende pasientinformasjon som vi kan benytte oss av – fra genomiske profiler, behandlingsresponser, medisinske journaler og familiehistorie – for å drive nøyaktig og rettidig diagnose. Hvis vi kan finne en måte å kompilere alle disse dataene slik at de er lett tilgjengelige, og ikke deles av individuelle helseorganisasjoner, kan vi dramatisk forbedre diagnostisk presisjon. Dette betyr ikke at maskinlæringsmodellene, inkludert LLM-er, vil kunne operere autonomt i diagnostisering. På grunn av deres tekniske begrensninger vil de i overskuelig fremtid ikke være autonome, men i stedet vil de forsterke menneskelige eksperter. De vil være kraftige verktøy for å hjelpe legen med å gi ypperlig informerte vurderinger og diagnoser på en brøkdel av tiden som er nødvendig til dags dato, og for å dokumentere og kommunisere diagnosene sine til pasienten så vel som til hele nettverket av helseleverandører koblet gjennom maskinen. læringssystem.

Industrien utnytter allerede maskinlæring for oppdagelse og utvikling av legemidler, og fremhever sin evne til å redusere kostnader og tidslinjer sammenlignet med det tradisjonelle paradigmet. LLM-er legger ytterligere til den tilgjengelige verktøykassen, og gir utmerkede rammer for modellering av storskala biomolekylære data, inkludert genomer, proteomer, funksjonelle genomiske og epigenomiske data, enkeltcelledata og mer. I overskuelig fremtid vil stiftelses-LLM-er utvilsomt koble seg på tvers av alle disse datamodalitetene og på tvers av store kohorter av individer hvis genomiske, proteomiske og helsemessige informasjon er samlet inn. Slike LLM-er vil hjelpe til med å generere lovende medikamentmål, identifisere sannsynlige lommer av aktivitet av proteiner assosiert med biologisk funksjon og sykdom, eller foreslå veier og mer komplekse cellulære funksjoner som kan moduleres på en spesifikk måte med små molekyler eller andre medikamentmodaliteter. Vi kan også benytte oss av LLM-er for å identifisere medikamentresponderere og ikke-responderere basert på genetisk følsomhet, eller for å gjenbruke legemidler i andre sykdomsindikasjoner. Mange av de eksisterende innovative AI-baserte medikamentoppdagelsesselskapene begynner utvilsomt allerede å tenke og utvikle seg i denne retningen, og vi bør forvente å se dannelsen av flere selskaper så vel som offentlig innsats rettet mot distribusjon av LLMs innen menneskers helse og legemidler. oppdagelse.

Takk for det detaljerte intervjuet, lesere som ønsker å lære mer bør besøke seer.

En grunnlegger av unite.AI og et medlem av Forbes teknologiråd, Antoine er en futurist som brenner for fremtiden til AI og robotikk.

Han er også grunnleggeren av Securities.io, et nettsted som fokuserer på å investere i forstyrrende teknologi.