ciot Dr. Serafim Batzoglou, Chief Data Officer la Seer - Seria de interviuri - Unite.AI
Conectează-te cu noi

interviuri

Dr. Serafim Batzoglou, Chief Data Officer la Seer – Seria de interviuri

mm

Publicat

 on

Serafim Batzoglou este Chief Data Officer la clarvăzător. Înainte de a se alătura Seer, Serafim a ocupat funcția de Chief Data Officer la Insitro, conducând învățarea automată și știința datelor în abordarea lor asupra descoperirii de medicamente. Înainte de Insitro, a ocupat funcția de vicepreședinte al Biologiei Aplicate și Computaționale la Illumina, conducând cercetarea și dezvoltarea tehnologică a IA și a testelor moleculare pentru a face datele genomice mai interpretabile în sănătatea umană.

Ce te-a atras inițial în domeniul genomicii?

M-am interesat de domeniul biologiei computaționale la începutul doctoratului în informatică la MIT, când am luat o clasă pe tema predată de Bonnie Berger, care a devenit consilierul meu de doctorat, și David Gifford. Proiectul genomului uman a luat ritm în timpul doctoratului meu. Eric Lander, care conducea Centrul de genom la MIT, a devenit co-consilierul meu de doctorat și m-a implicat în proiect. Motivat de proiectul genomului uman, am lucrat la asamblarea întregului genom și la genomica comparativă a ADN-ului uman și al șoarecilor.

Apoi m-am mutat la Universitatea Stanford ca facultate la departamentul de Informatică, unde am petrecut 15 ani și am avut privilegiul de a fi sfătuit aproximativ 30 de doctoranzi incredibil de talentați și mulți cercetători postdoctorali și studenți. Accentul echipei mele a fost aplicarea algoritmilor, învățarea automată și crearea de instrumente software pentru analiza datelor genomice și biomoleculare la scară largă. Am părăsit Stanford în 2016 pentru a conduce o echipă de cercetare și dezvoltare tehnologică la Illumina. De atunci, mi-a plăcut să conduc echipe de cercetare și dezvoltare din industrie. Consider că munca în echipă, aspectul de afaceri și un impact mai direct asupra societății sunt caracteristice industriei în comparație cu mediul academic. Am lucrat la companii inovatoare de-a lungul carierei mele: DNAnexus, pe care l-am co-fondat în 2009, Illumina, insitro și acum Seer. Calculul și învățarea automată sunt esențiale de-a lungul lanțului tehnologic în biotehnologie, de la dezvoltarea tehnologiei, la achiziția de date, la interpretarea datelor biologice și traducerea în sănătatea umană.

În ultimii 20 de ani, secvențierea genomului uman a devenit mult mai ieftină și mai rapidă. Acest lucru a condus la o creștere dramatică a pieței de secvențiere a genomului și o adoptare mai largă în industria științelor vieții. Suntem acum la punctul de a avea date genomice, multi-omice și fenotipice ale populației de dimensiuni suficiente pentru a revoluționa în mod semnificativ asistența medicală, inclusiv prevenirea, diagnosticarea, tratamentul și descoperirea medicamentelor. Putem descoperi din ce în ce mai mult bazele moleculare ale bolii pentru indivizi prin analiza computațională a datelor genomice, iar pacienții au șansa de a primi tratamente personalizate și direcționate, în special în domeniile cancerului și bolilor genetice rare. Dincolo de utilizarea evidentă în medicină, învățarea automată cuplată cu informațiile genomice ne permite să obținem informații despre alte domenii ale vieții noastre, cum ar fi genealogia și nutriția noastră. În următorii câțiva ani se vor adopta asistență medicală personalizată, bazată pe date, în primul rând pentru grupuri selectate de oameni, cum ar fi pacienții cu boli rare, și din ce în ce mai mult pentru publicul larg.

Înainte de a vă ocupa actualul rol, ați fost Chief Data Officer la Intro, conducând învățarea automată și știința datelor în abordarea lor asupra descoperirii de medicamente. Care au fost câteva dintre concluziile tale cheie din această perioadă de timp cu privire la modul în care învățarea automată poate fi folosită pentru a accelera descoperirea medicamentelor?

Paradigma „încercare și eroare” de descoperire și dezvoltare a medicamentelor convenționale este plină de ineficiențe și termene extrem de lungi. Pentru ca un medicament să ajungă pe piață, poate dura mai mult de 1 miliard de dolari și peste un deceniu. Încorporând învățarea automată în aceste eforturi, putem reduce drastic costurile și intervalele de timp în mai mulți pași pe parcurs. Un pas este identificarea țintei, în care o genă sau un set de gene care modulează un fenotip de boală sau revin o stare celulară a bolii la o stare mai sănătoasă poate fi identificată prin perturbări genetice și chimice la scară largă și citiri fenotipice, cum ar fi imagistica și genomica funcțională. . Un alt pas este identificarea și optimizarea compusului, în care o moleculă mică sau o altă modalitate poate fi proiectată prin predicție in silico condusă de învățarea automată, precum și screening in vitro și, în plus, proprietățile dorite ale unui medicament, cum ar fi solubilitatea, permeabilitatea, specificitatea și non- toxicitatea poate fi optimizată. Cel mai greu și cel mai important aspect este, probabil, traducerea către oameni. Aici, alegerea modelului potrivit - linii derivate din celule stem pluripotente induse versus linii celulare primare ale pacientului și mostre de țesut față de modele animale - pentru boala potrivită reprezintă un set incredibil de important de compromisuri care se reflectă în cele din urmă asupra capacității datelor rezultate plus mașină. învăţând să traducă pacienţilor.

Seer Bio este pionierat în noi modalități de a decoda secretele proteomului pentru a îmbunătăți sănătatea umană, pentru cititorii care nu sunt familiarizați cu acest termen, ce este proteomul?

proteom este ansamblul schimbător de proteine ​​produse sau modificate de un organism de-a lungul timpului și ca răspuns la mediu, nutriție și starea de sănătate. Proteomica este studiul proteomului dintr-un anumit tip de celulă sau eșantion de țesut. Genomul unui om sau al altor organisme este static: cu excepția importantă a mutațiilor somatice, genomul la naștere este genomul care are întreaga viață, copiat exact în fiecare celulă a corpului. Proteomul este dinamic și se modifică în intervale de timp de ani, zile și chiar minute. Ca atare, proteomii sunt mult mai aproape de fenotip și, în cele din urmă, de starea de sănătate decât sunt genomii și, în consecință, mai informativ pentru monitorizarea sănătății și înțelegerea bolii.

La Seer, am dezvoltat o nouă modalitate de a accesa proteomul care oferă informații mai profunde asupra proteinelor și proteoformelor din probe complexe, cum ar fi plasma, care este o probă foarte accesibilă care, din păcate, până în prezent a reprezentat o mare provocare pentru proteomica convențională a spectrometriei de masă.

Ce este platforma Seer's Proteograph™ și cum oferă o nouă viziune asupra proteomului?

Platforma Proteograph a lui Seer folosește o bibliotecă de nanoparticule proiectate de proprietate, alimentate de un flux de lucru simplu, rapid și automatizat, permițând interogarea profundă și scalabilă a proteomului.

Platforma Proteograph strălucește în interogarea plasmei și a altor probe complexe care prezintă o gamă dinamică mare - diferențe de multe ordine de mărime în abundența diferitelor proteine ​​din probă - unde metodele convenționale de spectrometrie de masă nu sunt în măsură să detecteze partea cu abundență scăzută a proteomului. Nanoparticulele lui Seer sunt proiectate cu proprietăți fizico-chimice reglabile care adună proteine ​​​​în intervalul dinamic într-un mod imparțial. În probele tipice de plasmă, tehnologia noastră permite detectarea a 5x până la 8x mai multe proteine ​​decât atunci când procesăm plasmă curată fără a utiliza Proteograf. Ca urmare, de la pregătirea probelor la instrumente până la analiza datelor, suita noastră de produse Proteograph ajută oamenii de știință să găsească semnături ale bolii proteom care altfel ar putea fi nedetectabile. Ne place să spunem că, la Seer, deschidem o nouă poartă către proteom.

În plus, le permitem oamenilor de știință să efectueze cu ușurință studii proteogenomice la scară largă. Proteogenomica este combinarea datelor genomice cu datele proteomice pentru a identifica și cuantifica variantele de proteine, pentru a lega variantele genomice cu nivelurile de abundență a proteinelor și, în cele din urmă, pentru a lega genomul și proteomul de fenotip și boală și pentru a începe dezlegarea căilor genetice cauzale și în aval asociate bolii. .

Puteți discuta despre unele dintre tehnologia de învățare automată care este utilizată în prezent la Seer Bio?

Seer valorifică învățarea automată în toate etapele de la dezvoltarea tehnologiei până la analiza datelor în aval. Acești pași includ: (1) proiectarea nanoparticulelor noastre brevetate, în care învățarea automată ne ajută să stabilim ce proprietăți fizico-chimice și combinații de nanoparticule vor funcționa cu linii de produse și teste specifice; (2) detectarea și cuantificarea peptidelor, proteinelor, variantelor și proteoformelor din datele de citire produse din instrumentele MS; (3) analize proteomice și proteogenomice în aval în cohorte de populație la scară largă.

Anul trecut, noi a publicat o lucrare în Advanced Materials combinând metodele proteomice, nanoingineria și învățarea automată pentru a îmbunătăți înțelegerea noastră a mecanismelor formării coroanei proteice. Această lucrare a dezvăluit interacțiuni nano-bio și îl informează pe Seer în crearea unor nanoparticule și produse îmbunătățite în viitor.

Dincolo de dezvoltarea nanoparticulelor, ne-am dezvoltat noi algoritmi pentru a identifica peptidele variante și modificările post-translaționale (PTM-uri). Am dezvoltat recent o metodă pentru detectarea loci de trăsături cuantificate cu proteine (pQTLs) care este robust pentru variantele de proteine, care este un factor de confuzie cunoscut pentru proteomica bazată pe afinitate. Extindem această activitate pentru a identifica direct aceste peptide din spectrele brute folosind metode de secvențiere de novo bazate pe învățarea profundă pentru a permite căutarea fără a umfla dimensiunea bibliotecilor spectrale.

Echipa noastră dezvoltă, de asemenea, metode care să permită oamenilor de știință fără experiență profundă în învățarea automată să ajusteze și să utilizeze în mod optim modelele de învățare automată în activitatea lor de descoperire. Acest lucru se realizează printr-un cadru Seer ML bazat pe AutoML instrument, care permite reglarea eficientă a hiperparametrului prin optimizarea bayesiană.

În cele din urmă, dezvoltăm metode pentru a reduce efectul lotului și a crește acuratețea cantitativă a citirii specificațiilor de masă prin modelarea valorilor cantitative măsurate pentru a maximiza valorile așteptate, cum ar fi corelarea valorilor intensității între peptide dintr-un grup de proteine.

Halucinațiile sunt o problemă comună cu LLM-urile, care sunt unele dintre soluțiile pentru a preveni sau a atenua acest lucru?

LLM-urile sunt metode generative cărora li se oferă un corpus mare și sunt antrenate pentru a genera text similar. Ele captează proprietățile statistice de bază ale textului pe care sunt instruiți, de la proprietăți locale simple, cum ar fi cât de des anumite combinații de cuvinte (sau simboluri) sunt găsite împreună, până la proprietăți de nivel superior care emulează înțelegerea contextului și a sensului.

Cu toate acestea, LLM-urile nu sunt instruite în primul rând pentru a fi corecte. Învățarea prin consolidare cu feedback uman (RLHF) și alte tehnici îi ajută să-i antreneze pentru proprietățile dorite, inclusiv corectitudinea, dar nu au succes pe deplin. Având un prompt, LLM-urile vor genera text care seamănă cel mai mult cu proprietățile statistice ale datelor de antrenament. Adesea și acest text este corect. De exemplu, dacă este întrebat „când s-a născut Alexandru cel Mare”, răspunsul corect este 356 î.Hr. (sau î.Hr.), iar un LLM este probabil să dea acest răspuns, deoarece în datele de antrenament nașterea lui Alexandru cel Mare apare adesea ca această valoare. Cu toate acestea, când a fost întrebat „când s-a născut împărăteasa Reginella”, un personaj fictiv care nu este prezent în corpus de instruire, este probabil ca LLM să halucineze și să creeze o poveste despre nașterea ei. În mod similar, atunci când este adresat o întrebare pentru care LLM nu poate găsi un răspuns corect (fie pentru că răspunsul corect nu există, fie pentru alte scopuri statistice), este probabil să halucineze și să răspundă ca și cum ar ști. Acest lucru creează halucinații care sunt o problemă evidentă pentru aplicații grave, cum ar fi „cum poate fi tratat un astfel de cancer”.

Nu există încă soluții perfecte pentru halucinații. Sunt endemice pentru proiectarea LLM. O soluție parțială este solicitarea adecvată, cum ar fi solicitarea LLM să „gândească cu atenție, pas cu pas” și așa mai departe. Acest lucru crește probabilitatea LLM-urilor de a nu inventa povești. O abordare mai sofisticată care este în curs de dezvoltare este utilizarea graficelor de cunoștințe. Graficele de cunoștințe oferă date structurate: entitățile dintr-un grafic de cunoștințe sunt conectate la alte entități într-o manieră predefinită, logică. Construirea unui grafic de cunoștințe pentru un domeniu dat este, desigur, o sarcină provocatoare, dar realizabilă cu o combinație de metode automate și statistice și curatare. Cu un grafic de cunoștințe încorporat, LLM-urile pot verifica încrucișați declarațiile pe care le generează cu setul structurat de fapte cunoscute și pot fi constrânși să nu genereze o declarație care contrazice sau nu este susținută de graficul de cunoștințe.

Din cauza problemei fundamentale a halucinațiilor și, probabil, din cauza lipsei lor suficiente de raționament și abilități de judecată, LLM-urile sunt astăzi puternice pentru recuperarea, conectarea și distilarea informațiilor, dar nu pot înlocui experții umani în aplicații serioase, cum ar fi diagnosticul medical sau consultanța juridică. Totuși, ele pot spori enorm eficiența și capacitatea experților umani în aceste domenii.

Puteți să vă împărtășiți viziunea pentru un viitor în care biologia este condusă mai degrabă de date decât de ipoteze?

Abordarea tradițională bazată pe ipoteze, care implică cercetătorii să găsească modele, să dezvolte ipoteze, să efectueze experimente sau studii pentru a le testa și apoi să perfecționeze teoriile bazate pe date, devine înlocuită de o nouă paradigmă bazată pe modelarea bazată pe date.

În această paradigmă emergentă, cercetătorii încep cu generarea de date la scară largă, fără ipoteze. Apoi, ei antrenează un model de învățare automată, cum ar fi un LLM, cu obiectivul de reconstrucție precisă a datelor ocluse, regresie puternică sau performanță de clasificare într-un număr de sarcini din aval. Odată ce modelul de învățare automată poate prezice cu exactitate datele și atinge o fidelitate comparabilă cu similaritatea dintre replicile experimentale, cercetătorii pot interoga modelul pentru a extrage informații despre sistemul biologic și a discerne principiile biologice care stau la baza.

LLM-urile se dovedesc a fi deosebit de bune în modelarea datelor biomoleculare și sunt proiectate să alimenteze o trecere de la descoperirea bazată pe ipoteze la descoperirea biologică bazată pe date. Această schimbare va deveni din ce în ce mai pronunțată în următorii 10 ani și va permite modelarea precisă a sistemelor biomoleculare la o granularitate care depășește cu mult capacitatea umană.

Care este impactul potențial pentru diagnosticarea bolii și descoperirea medicamentelor?

Cred că LLM și IA generativă vor duce la schimbări semnificative în industria științelor vieții. Un domeniu care va beneficia foarte mult de pe urma LLM este diagnosticul clinic, în special pentru bolile rare, greu de diagnosticat și subtipurile de cancer. Există cantități uriașe de informații complete despre pacienți pe care le putem accesa - de la profiluri genomice, răspunsuri la tratament, dosare medicale și istoric familial - pentru a stabili diagnosticul precis și în timp util. Dacă putem găsi o modalitate de a compila toate aceste date astfel încât să fie ușor accesibile și să nu fie izolate de organizațiile individuale de sănătate, putem îmbunătăți dramatic precizia diagnosticului. Acest lucru nu înseamnă că modelele de învățare automată, inclusiv LLM-urile, vor putea funcționa în mod autonom în diagnosticare. Datorită limitărilor lor tehnice, în viitorul previzibil ei nu vor fi autonomi, ci vor spori experții umani. Acestea vor fi instrumente puternice pentru a ajuta medicul să ofere evaluări și diagnostice excelent informate într-o fracțiune din timpul necesar până în prezent și să documenteze și să comunice în mod corespunzător diagnosticele pacientului, precum și întregii rețele de furnizori de sănătate conectați prin intermediul aparatului. sistem de învățare.

Industria folosește deja învățarea automată pentru descoperirea și dezvoltarea medicamentelor, promovând capacitatea sa de a reduce costurile și termenele în comparație cu paradigma tradițională. LLM-urile se adaugă în plus la setul de instrumente disponibil și oferă cadre excelente pentru modelarea datelor biomoleculare la scară largă, inclusiv genomi, proteomi, date genomice și epigenomice funcționale, date unicelulare și multe altele. În viitorul previzibil, LLM-urile fundației se vor conecta, fără îndoială, la toate aceste modalități de date și la cohorte mari de indivizi ale căror informații genomice, proteomice și de sănătate sunt colectate. Astfel de LLM-uri vor ajuta la generarea de ținte de medicamente promițătoare, vor identifica zonele probabile de activitate ale proteinelor asociate cu funcția biologică și boala sau vor sugera căi și funcții celulare mai complexe care pot fi modulate într-un mod specific cu molecule mici sau alte modalități de medicamente. De asemenea, putem folosi LLM-uri pentru a identifica respondenții și non-respondenții la medicamente pe baza susceptibilității genetice sau pentru a reutiliza medicamentele în alte indicații ale bolii. Multe dintre companiile existente inovatoare de descoperire a medicamentelor bazate pe inteligență artificială încep deja, fără îndoială, să gândească și să se dezvolte în această direcție și ar trebui să ne așteptăm să vedem formarea de companii suplimentare, precum și eforturi publice care vizează implementarea LLM-urilor în sănătatea umană și medicamente. descoperire.

Vă mulțumim pentru interviul detaliat, cititorii care doresc să afle mai multe ar trebui să îl viziteze clarvăzător.

Un partener fondator al unit.AI și un membru al Consiliul Tehnologic Forbes, Antoine este un futurist care este pasionat de viitorul AI și al roboticii.

El este, de asemenea, fondatorul Securities.io, un site web care se concentrează pe investițiile în tehnologie disruptivă.