Interviews

Dr. Serafim Batzoglou, Chief Data Officer hos Seer – Interviewserie

mm

Serafim Batzoglou er Chief Data Officer hos Seer. Før han kom til Seer, var Serafim Chief Data Officer hos Insitro, hvor han ledede maskinlæring og datavidenskab i deres tilgang til lægemiddelforskning. Før Insitro var han VP of Applied and Computational Biology hos Illumina, hvor han ledede forskning og teknologiudvikling af AI og molekylære assays til at gøre genetiske data mere fortolkelige i menneskers sundhed.

Hvad var det, der oprindeligt tiltrak dig til genetikområdet?

Jeg blev interesseret i det computermæssige biologiområde ved starten af min ph.d. i datalogi på MIT, da jeg tog en klasse om emnet, der blev undervist af Bonnie Berger, som blev min ph.d.-vejleder, og David Gifford. Det humane genomprojekt var i fuld gang under min ph.d. Eric Lander, der stod i spidsen for Genome Center på MIT, blev min ph.d.-medvejleder og inddrog mig i projektet. Motiveret af det humane genomprojekt arbejdede jeg med hele-genom-sammenstilling og komparativ genetik på menneske- og mus-DNA.

Jeg flyttede derefter til Stanford University som ansat på datalogi-afdelingen, hvor jeg tilbragte 15 år og havde den ære at have vejledt omkring 30 utroligt talentfulde ph.d.-studerende og mange postdoc-forskere og studerende. Mit holds fokus har været anvendelsen af algoritmer, maskinlæring og softwareværktøjer til analyse af store mængder genetiske og biomolekylære data. Jeg forlod Stanford i 2016 for at lede en forsknings- og teknologiudviklingsgruppe på Illumina. Siden da har jeg nydt at lede R&D-hold i industrien. Jeg finder, at teamwork, forretningsaspektet og en mere direkte indvirkning på samfundet er karakteristika for industrien i forhold til akademiet. Jeg har arbejdet for innovative virksomheder i løbet af min karriere: DNAnexus, som jeg var med til at grundlægge i 2009, Illumina, Insitro og nu Seer. Beregning og maskinlæring er essentielle på tværs af teknologikæden i biotek, fra teknologiudvikling til dataindsamling, til biologisk datafortolkning og oversættelse til menneskers sundhed.

Over de sidste 20 år er sekventering af det humane genom blevet langt billigere og hurtigere. Dette har ført til en dramatisk vækst i markedet for genomsekventering og en bredere anvendelse i life sciences-industrien. Vi er nu ved at have populationsgenetiske, multi-omiske og fenotypiske data af tilstrækkelig størrelse til at revolutionere sundhedspleje, herunder forebyggelse, diagnose, behandling og lægemiddelforskning. Vi kan i stigende grad opdage de molekylære årsager til sygdomme hos enkeltpersoner gennem computermæssig analyse af genetiske data, og patienter har chancen for at modtage behandlinger, der er tilpasset og målrettede, især i områderne kræft og sjældne genetiske sygdomme. Ud over den åbenlyse anvendelse i medicin giver maskinlæring kombineret med genetisk information os indsigt i andre områder af vores liv, såsom vores slægtskab og ernæring. De næste flere år vil se en anvendelse af personlig, data-dreven sundhedspleje, først for udvalgte grupper af mennesker, såsom patienter med sjældne sygdomme, og herefter for den brede offentlighed.

Før din nuværende stilling var du Chief Data Officer hos Insitro, hvor du ledede maskinlæring og datavidenskab i deres tilgang til lægemiddelforskning. Hvad var nogle af dine vigtigste erfaringer fra denne periode med, hvordan maskinlæring kan anvendes til at accelerere lægemiddelforskning?

Den traditionelle “prøve-og-fejl”-paradigme for lægemiddelforskning og -udvikling er plaget af ineffektiviteter og ekstremt lange tidsrammer. For ét lægemiddel at nå markedet kan det tage op mod 1 milliard dollars og mere end et årti. Ved at inkorporere maskinlæring i disse bestræbelser kan vi dramatisk reducere omkostninger og tidsrammer på flere punkter undervejs. Et punkt er målidentifikation, hvor et gen eller en samling af gener, der modulerer en sygdomsfænotype eller omdanner en sygdomscelle til en mere sund tilstand, kan identificeres gennem store skala genetiske og kemiske perturbationer og fenotypiske læsninger såsom billedanalyse og funktionel genetik. Et andet punkt er stofidentifikation og -optimering, hvor et lille molekyl eller en anden modalitet kan designes ved maskinlæring-dreven in silico-prædiktion såvel som in vitro-screening, og ønskede egenskaber af et lægemiddel såsom opløselighed, permeabilitet, specifikhed og non-toxicitet kan optimeres. Det sværeste såvel som vigtigste aspekt er måske oversættelsen til mennesker. Her er valget af den rette model – inducerede pluripotente stamcelle-afledte linjer versus primære patientcellelinjer og vævsprøver versus dyremodeller – for den rette sygdom en utrolig vigtig samling af kompromiser, der ultimativt afspejler evnen af de resulterende data plus maskinlæring til at oversætte til patienter.

Seer Bio er pioner inden for nye måder at afkode proteomets hemmeligheder til at forbedre menneskers sundhed. For læsere, der ikke er bekendt med denne term, hvad er proteomet?

Proteomet er den skiftende samling af proteiner, der produceres eller modificeres af en organisme over tid og i respons til miljø, ernæring og sundhedsstatus. Proteomik er studiet af proteomet inden for en given celletype eller vævsprøve. Det humane genom er statisk: med den vigtige undtagelse af somatiske mutationer er genomet ved fødslen det samme genom, man har hele livet, kopieret præcist i hver celle i kroppen. Proteomet er dynamisk og ændrer sig over tidsrum på år, dage og endda minutter. Som sådan er proteomer langt tættere på fænotype og ultimativt sundhedsstatus end er genomer, og derfor mere informativt for overvågning af sundhed og forståelse af sygdom.

Hos Seer har vi udviklet en ny måde at få adgang til proteomet på, der giver dybere indsigt i proteiner og proteoformer i komplekse prøver såsom plasma, der er en højt tilgængelig prøve, der desværre hidtil har udgjort en stor udfordring for konventionel masse-spektrometri-proteomik.

Hvad er Seers Proteograph™-platform, og hvordan tilbyder den en ny visning af proteomet?

Seers Proteograph-platform udnytter en bibliotek af proprietære, ingeniørdesignede nanopartikler, der er drevet af en enkel, hurtig og automatiseret arbejdsgang, og muliggør dyb og skalerbar afhøring af proteomet.

Proteograph-platformen udmærker sig ved at afhøre plasma og andre komplekse prøver, der viser stor dynamisk rækkevidde – mange størrelsesordners forskel i abundance af forskellige proteiner i prøven – hvor konventionelle masse-spektrometri-metoder ikke kan detektere den lave abundance-del af proteomet. Seers nanopartikler er designet med justerbare fysio-kemiske egenskaber, der indsamler proteiner på tværs af dynamisk rækkevidde på en upartisk måde. I typiske plasma-prøver muliggør vores teknologi detektion af 5-8 gange flere proteiner end når man behandler ren plasma uden at bruge Proteograph. Som resultat heraf hjælper vores Proteograph-produktserie forskere med at finde proteom-sygdomssignaturer, der ellers ville være undetekterbare. Vi siger, at vi åbner en ny portal til proteomet.

Desuden giver vi videnskabsfolk mulighed for at udføre store skala proteogenomiske studier. Proteogenomik er kombinationen af genetiske data med proteomiske data for at identificere og kvantificere proteinvarianter, kobling af genetiske varianter med proteinabundansniveauer og ultimativt kobling af genomet og proteomet til fænotype og sygdom, og begynder at afklare de årsagsmæssige og downstream-genetiske vejledninger, der er forbundet med sygdom.

Kan du diskutere nogle af de maskinlærings-teknologier, der i øjeblikket anvendes hos Seer Bio?

Seer udnytter maskinlæring på alle niveauer, fra teknologiudvikling til dataanalyse. Disse niveauer omfatter: (1) design af vores proprietære nanopartikler, hvor maskinlæring hjælper os med at bestemme, hvilke fysio-kemiske egenskaber og kombinationer af nanopartikler, der vil fungere med bestemte produktlinjer og assays; (2) detektion og kvantificering af peptider, proteiner, varianter og proteoformer fra læsningdata produceret af MS-instrumenterne; (3) downstream-proteomiske og proteogenomiske analyser i store populationer.

Sidste år publicerede vi en artikel i Advanced Materials, der kombinerer proteomikmetoder, nanoingeniørarbejde og maskinlæring for at forbedre vores forståelse af mekanismerne bag protein-korona-dannelse. Denne artikel afslørede nano-bio-interaktioner og informerer Seer om skabelsen af forbedrede fremtidige nanopartikler og produkter.

Ud over nanopartikeludvikling har vi udviklet nye algoritmer til at identificere variant-peptider og post-translational-modifikationer (PTMs). Vi har nyligt udviklet en metode til detektion af protein-kvantificerede-trait-loci (pQTLs), der er robust over for proteinvarianter, hvilket er en kendt konfounder for affinitetsbaseret proteomik. Vi udvider dette arbejde til direkte at identificere disse peptider fra de rå spektra ved hjælp af dyb-læring-baseret de novo-sekventering til at tillade søgning uden at øge størrelsen af spektrallibliotekerne.

Vores hold udvikler også metoder til at reducere batch-effekten og øge den kvantitative nøjagtighed af mass-spec-læsning ved at modellere de målte kvantitative værdier for at maksimere forventede mål såsom korrelation af intensitetsværdier på tværs af peptider inden for en protein-gruppe.

Hallucinationer er et almindeligt problem med LLM’er, hvad er nogle af løsningerne til at forebygge eller mindske dette?

LLM’er er generative metoder, der er givet en stor korpus og trænet til at generere lignende tekst. De fanger de underliggende statistiske egenskaber af teksten, de er trænet på, fra simple lokale egenskaber såsom, hvor ofte visse kombinationer af ord (eller tokens) er fundet sammen, til højere niveau-egenskaber, der efterligner forståelse af kontekst og mening.

Men LLM’er er ikke primært trænet til at være korrekte. Forstærkning med menneskelig feedback (RLHF) og andre teknikker hjælper med at træne dem for ønskede egenskaber, herunder korrekthed, men er ikke fuldt ud successfulde. Givet en prompt vil LLM’er generere tekst, der minder mest om de statistiske egenskaber af træningsdata. Ofte er denne tekst også korrekt. For eksempel, hvis man spørger “hvornår blev Alexander den Store født”, er det korrekte svar 356 f.Kr. (eller f.v.t.), og en LLM er sandsynligvis at give dette svar, fordi Alexander den Stores fødsel ofte fremgår af træningsdata som denne værdi. Men hvis man spørger “hvornår blev kejserinde Reginella født”, en fiktiv karakter, der ikke er til stede i træningskorpus, er LLM sandsynligvis at hallucinere og skabe en historie om hendes fødsel. Lignende, hvis man stiller et spørgsmål, som LLM måske ikke kan give et korrekt svar på (enten fordi det korrekte svar ikke findes, eller af andre statistiske årsager), er det sandsynligt at hallucinere og svare, som om det vidste. Dette skaber hallucinationer, der er et åbenlyst problem for alvorlige anvendelser, såsom “hvordan kan man behandle en bestemt kræft”.

Der er ingen perfekte løsninger endnu for hallucinationer. De er indbygget i designet af LLM. En delvis løsning er korrekt promptning, såsom at bede LLM om at “tænke omhyggeligt, skridt for skridt”, og så videre. Dette øger LLM’ens sandsynlighed for ikke at opdigte historier. En mere sofistikeret tilgang, der udvikles, er brugen af viden graf. Viden graf giver struktureret data: enheder i en viden graf er forbundet til andre enheder på en foruddefineret, logisk måde. At opbygge en viden graf for et givet domæne er naturligvis en udfordring, men det kan gøres med en kombination af automatiserede og statistiske metoder og kuratering. Med en indbygget viden graf kan LLM’er kontrollere de udsagn, de genererer, mod den strukturerede samling af kendte fakta og kan begrænses til ikke at generere en udsagn, der modsiger eller ikke er understøttet af viden grafen.

Da hallucinationer og manglen på tilstrækkelig reasonering og dømmekraft er fundamentale problemer, kan LLM’er i dag ikke erstatte menneskelige eksperter i alvorlige anvendelser såsom medicinsk diagnose eller juridisk rådgivning. De kan dog enormt forbedre effektiviteten og kapaciteten af menneskelige eksperter i disse domæner.

Kan du dele din vision for en fremtid, hvor biologi styres af data snarere end hypoteser?

Den traditionelle hypotesedrevne tilgang, der indebærer, at forskere finder mønstre, udvikler hypoteser, udfører eksperimenter eller studier for at teste dem og derefter forfiner teorierne på baggrund af data, erstattes af en ny paradigme baseret på data-dreven modelering.

I denne opdybkommende paradigme starter forskere med hypotesefri, stor skala data-generering. Derefter træner de en maskinlæringsmodel såsom en LLM med målet om nøjagtig rekonstruktion af skjulte data, stærk regression eller klassifikationspræstation i en række downstream-opgaver. Når maskinlæringsmodellen kan prædicere data med nøjagtighed og opnår troværdighed, der er sammenlignelig med ligheden mellem eksperimentelle replikater, kan forskere afhøre modellen for at udtrække indsigt om det biologiske system og opdage de underliggende biologiske principper.

LLM’er viser sig at være særligt gode til at modellere biomolekylære data og er rettet mod at fremme en skift fra hypotesedrevet til data-dreven biologisk opdagelse. Denne skift vil blive mere og mere udtalt over de næste 10 år og tillade nøjagtig modelering af biomolekylære systemer på en detaljeringsgrad, der går langt ud over menneskelig kapacitet.

Hvad er potentialet for sygdomsdiagnose og lægemiddelforskning?

Jeg tror, at LLM og generativ AI vil føre til betydelige ændringer i life sciences-industrien. Et område, der vil have stor gevinst af LLM’er, er klinisk diagnose, især for sjældne, svært-diagnosticerede sygdomme og kræft-undergrupper. Der er enorme mængder af omfattende patientinformation, som vi kan udnytte – fra genetiske profiler, behandlingsrespons, medicinske journaler og familehistorie – for at drive præcis og tidlig diagnose. Hvis vi kan finde en måde at samle alle disse data på, så de er let tilgængelige og ikke isolerede af enkelt sundhedsorganisationer, kan vi dramatisk forbedre diagnostisk præcision. Dette indebærer ikke, at maskinlæringsmodellerne, herunder LLM’er, kan fungere autonomt i diagnose. På grund af deres tekniske begrænsninger vil de i den nærmeste fremtid ikke være autonome, men i stedet være kraftfulde værktøjer til at hjælpe lægerne med at give superb informerede vurderinger og diagnoser på en brøkdel af den tid, der er nødvendig i dag, og til at dokumentere og kommunikere deres diagnoser til patienten såvel som til det hele netværk af sundhedsudbydere, der er forbundet gennem maskinlærings-systemet.

Branchen udnytter allerede maskinlæring til lægemiddelforskning og -udvikling, og fremhæver dens evne til at reducere omkostninger og tidsrammer i forhold til den traditionelle paradigme. LLM’er tilføjer yderligere til det tilgængelige værktøjskammer og giver fremragende rammer for modelering af store mængder biomolekylære data, herunder genomer, proteomer, funktionelle genetiske og epigenetiske data, enkelt-celle-data og mere. I den nærmeste fremtid vil grundlæggende LLM’er uden tvivl forbinde sig på tværs af alle disse data-modaler og på tværs af store kohorter af individer, hvis genetiske, proteomiske og sundhedsinformation er indsamlet. Sådanne LLM’er vil hjælpe med at generere lovende lægemiddel-mål, identificere sandsynlige lommer af aktivitet af proteiner forbundet med biologisk funktion og sygdom eller foreslå stier og mere komplekse cellulære funktioner, der kan moduleres på en bestemt måde med små molekyler eller andre lægemiddel-modaler. Vi kan også udnytte LLM’er til at identificere lægemiddel-respondenter og ikke-respondenter baseret på genetisk følsomhed eller til at genbruge lægemidler i andre sygdomsindikationer. Mange af de eksisterende innovative AI-baserede lægemiddelforskningsvirksomheder er uden tvivl allerede begyndt at tænke og udvikle i denne retning, og vi bør forvente at se dannelse af yderligere virksomheder såvel som offentlige bestræbelser rettet mod udviklingen af LLM’er i menneskers sundhed og lægemiddelforskning.

Tak for det detaljerede interview, læsere, der ønsker at lære mere, kan besøge Seer.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så disruptiv for samfundet som elektricitet, og bliver ofte fanget i at tale om potentialet for disruptiv teknologi og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform fokuseret på at investere i skarp teknologi, der gendefinerer fremtiden og omformer hele sektorer.