peň Dr. Serafim Batzoglou, Chief Data Officer v Seer - Séria rozhovorov - Unite.AI
Spojte sa s nami

rozhovory

Dr. Serafim Batzoglou, riaditeľ pre údaje v Seer – Séria rozhovorov

mm

uverejnené

 on

Serafim Batzoglou je riaditeľ pre údaje v spoločnosti jasnovidec. Pred nástupom do spoločnosti Seer pracoval Serafim ako Chief Data Officer v Insitro, kde viedol strojové učenie a dátovú vedu v ich prístupe k objavovaniu liekov. Pred Insitrom pôsobil ako viceprezident pre aplikovanú a výpočtovú biológiu v spoločnosti Illumina, kde viedol výskum a technologický vývoj AI a molekulárnych testov na zlepšenie interpretovateľnosti genómových údajov v ľudskom zdraví.

Čo vás na začiatku zaujalo v oblasti genomiky?

O oblasť výpočtovej biológie som sa začal zaujímať na začiatku môjho doktorandského štúdia z informatiky na MIT, keď som sa zúčastnil hodiny na tému, ktorú vyučovala Bonnie Berger, ktorá sa stala mojou doktorandkou, a David Gifford. Projekt ľudského genómu naberal tempo počas môjho PhD. Eric Lander, ktorý viedol Genome Center na MIT, sa stal mojím doktorandským spoluporadcom a zapojil ma do projektu. Motivovaný projektom ľudského genómu som pracoval na zostavovaní celého genómu a porovnávacej genomike ľudskej a myšacej DNA.

Potom som sa presťahoval na Stanfordskú univerzitu ako fakulta na katedre informatiky, kde som strávil 15 rokov, a mal som tú česť poradiť asi 30 neuveriteľne talentovaným doktorandom a mnohým postdoktorandským výskumníkom a vysokoškolákom. Môj tím sa zameral na aplikáciu algoritmov, strojového učenia a budovanie softvérových nástrojov na analýzu rozsiahlych genomických a biomolekulárnych údajov. Zo Stanfordu som odišiel v roku 2016, aby som viedol tím výskumu a vývoja technológií v Illumine. Odvtedy ma baví viesť výskumné a vývojové tímy v priemysle. Zistil som, že tímová práca, obchodný aspekt a priamejší vplyv na spoločnosť sú charakteristické pre priemysel v porovnaní s akademickou sférou. Počas svojej kariéry som pracoval v inovatívnych spoločnostiach: DNAnexus, ktorý som v roku 2009 spoluzakladal, Illumina, insitro a teraz Seer. Výpočet a strojové učenie sú nevyhnutné v celom technologickom reťazci v biotechnológiách, od vývoja technológií cez získavanie údajov až po interpretáciu biologických údajov a ich preklad do ľudského zdravia.

Za posledných 20 rokov sa sekvenovanie ľudského genómu výrazne zlacnilo a zrýchlilo. To viedlo k dramatickému rastu na trhu sekvenovania genómu a širšiemu prijatiu v priemysle biologických vied. Teraz sme na vrchole toho, že máme populačné genomické, multiomické a fenotypové údaje dostatočnej veľkosti na to, aby zmysluplne spôsobili revolúciu v zdravotnej starostlivosti vrátane prevencie, diagnostiky, liečby a objavovania liekov. Prostredníctvom výpočtovej analýzy genómových údajov môžeme čoraz viac objavovať molekulárne základy chorôb u jednotlivcov a pacienti majú šancu dostať personalizovanú a cielenú liečbu, najmä v oblastiach rakoviny a zriedkavých genetických chorôb. Okrem očividného využitia v medicíne nám strojové učenie spolu s genomickými informáciami umožňuje získať prehľad o iných oblastiach nášho života, ako je naša genealógia a výživa. V nasledujúcich niekoľkých rokoch dôjde k prijatiu personalizovanej zdravotnej starostlivosti založenej na údajoch, najprv pre vybrané skupiny ľudí, ako sú pacienti so zriedkavými chorobami, a čoraz viac pre širokú verejnosť.

Pred svojou súčasnou funkciou ste boli Chief Data Officer v spoločnosti Insitro, vedúci strojového učenia a vedy o údajoch v ich prístupe k objavovaniu liekov. Aké boli niektoré z vašich kľúčových poznatkov z tohto časového obdobia s tým, ako možno strojové učenie použiť na urýchlenie objavovania liekov?

Konvenčná paradigma objavovania a vývoja liekov „pokus-omyl“ je sužovaná neefektívnosťou a extrémne zdĺhavými časovými plánmi. Aby sa jeden liek dostal na trh, môže to trvať až 1 miliardu dolárov a viac ako desať rokov. Začlenením strojového učenia do tohto úsilia môžeme dramaticky znížiť náklady a časové rámce v niekoľkých krokoch na ceste. Jedným krokom je identifikácia cieľa, kde je možné identifikovať gén alebo súbor génov, ktoré modulujú fenotyp choroby alebo vracajú bunkový stav choroby do zdravšieho stavu, prostredníctvom rozsiahlych genetických a chemických porúch a fenotypových údajov, ako je zobrazovanie a funkčná genomika. . Ďalším krokom je identifikácia a optimalizácia zlúčeniny, kde je možné navrhnúť malú molekulu alebo inú modalitu predikciou in silico riadenou strojovým učením, ako aj in vitro skríningom a navyše požadované vlastnosti liečiva, ako je rozpustnosť, permeabilita, špecifickosť a toxicita môže byť optimalizovaná. Najťažším a zároveň najdôležitejším aspektom je možno preklad na ľudí. Tu výber správneho modelu – indukované pluripotentné línie odvodené od kmeňových buniek oproti primárnym bunkovým líniám pacienta a vzorky tkaniva oproti zvieracím modelom – pre správnu chorobu predstavuje neuveriteľne dôležitý súbor kompromisov, ktoré v konečnom dôsledku odrážajú schopnosť výsledných údajov a stroja. naučiť sa prekladať pacientom.

Seer Bio je priekopníkom nových spôsobov, ako dekódovať tajomstvá proteómu na zlepšenie ľudského zdravia, pre čitateľov, ktorí nepoznajú tento termín, čo je to proteóm?

proteóm je meniaci sa súbor bielkovín produkovaných alebo modifikovaných organizmom v priebehu času a v reakcii na prostredie, výživu a zdravotný stav. Proteomika je štúdium proteómu v danom type bunky alebo vo vzorke tkaniva. Genóm človeka alebo iných organizmov je statický: s dôležitou výnimkou somatických mutácií je genóm pri narodení genóm, ktorý má človek celý život, presne skopírovaný v každej bunke svojho tela. Proteóm je dynamický a mení sa v časových rozpätiach rokov, dní a dokonca minút. Ako také sú proteómy oveľa bližšie k fenotypu a v konečnom dôsledku k zdravotnému stavu ako genómy, a preto sú informatívnejšie na monitorovanie zdravia a pochopenie chorôb.

V spoločnosti Seer sme vyvinuli nový spôsob prístupu k proteómu, ktorý poskytuje hlbší pohľad na proteíny a proteoformy v komplexných vzorkách, ako je plazma, čo je vysoko prístupná vzorka, ktorá bohužiaľ doteraz predstavuje veľkú výzvu pre konvenčnú proteomiku hmotnostnej spektrometrie.

Čo je platforma Seer's Proteograph™ a ako ponúka nový pohľad na proteóm?

Platforma Seer's Proteograph využíva knižnicu proprietárnych navrhnutých nanočastíc, poháňanú jednoduchým, rýchlym a automatizovaným pracovným postupom, ktorý umožňuje hlboké a škálovateľné skúmanie proteómu.

Platforma Proteograph žiari pri skúmaní plazmy a iných komplexných vzoriek, ktoré vykazujú veľký dynamický rozsah - mnoho rádových rozdielov v množstve rôznych proteínov vo vzorke - kde konvenčné metódy hmotnostnej spektrometrie nie sú schopné detekovať časť proteómu s nízkym výskytom. Seerove nanočastice sú skonštruované s laditeľnými fyzikálno-chemickými vlastnosťami, ktoré zhromažďujú proteíny v dynamickom rozsahu nezaujatým spôsobom. V typických vzorkách plazmy naša technológia umožňuje detekciu 5x až 8x viac proteínov ako pri spracovaní čistej plazmy bez použitia proteografu. Výsledkom je, že od prípravy vzorky cez prístrojové vybavenie až po analýzu údajov naša sada produktov Proteograph pomáha vedcom nájsť podpisy proteómových chorôb, ktoré by inak mohli byť nezistiteľné. Radi hovoríme, že v Seer otvárame novú bránu do proteómu.

Okrem toho umožňujeme vedcom ľahko vykonávať rozsiahle proteogenomické štúdie. Proteogenomika je kombinovanie genómových údajov s proteomickými údajmi na identifikáciu a kvantifikáciu proteínových variantov, prepojenie genómových variantov s úrovňami nadbytočnosti proteínov a v konečnom dôsledku prepojenie genómu a proteómu s fenotypom a chorobou a začatie oddeľovania kauzálnych a následných genetických dráh spojených s chorobou. .

Môžete diskutovať o niektorých technológiách strojového učenia, ktoré sa v súčasnosti používajú v Seer Bio?

Seer využíva strojové učenie vo všetkých krokoch od vývoja technológie až po následnú analýzu údajov. Tieto kroky zahŕňajú: (1) návrh našich vlastných nanočastíc, kde nám strojové učenie pomáha určiť, ktoré fyzikálno-chemické vlastnosti a kombinácie nanočastíc budú fungovať so špecifickými produktovými radmi a testami; (2) detekcia a kvantifikácia peptidov, proteínov, variantov a proteoforiem z načítaných údajov získaných z prístrojov MS; (3) následné proteomické a proteogenomické analýzy vo veľkých populačných kohortách.

Minulý rok sme publikoval článok v Advanced Materials kombinujúci proteomické metódy, nanoinžinierstvo a strojové učenie na zlepšenie nášho chápania mechanizmov tvorby proteínovej koróny. Tento dokument odhalil nano-bio interakcie a informuje Seera o vytváraní vylepšených budúcich nanočastíc a produktov.

Okrem vývoja nanočastíc sme vyvíjali nové algoritmy na identifikáciu variantných peptidov a posttranslačných modifikácií (PTM). Nedávno sme vyvinuli metódu pre detekcia proteínových kvantifikovaných lokusov znaku (pQTL), ktorý je odolný voči proteínovým variantom, čo je známy zmätok pre proteomiku založenú na afinite. Rozširujeme túto prácu, aby sme priamo identifikovali tieto peptidy zo surových spektier pomocou metód de novo sekvenovania založených na hlbokom učení, aby sme umožnili vyhľadávanie bez nafúknutia veľkosti spektrálnych knižníc.

Náš tím tiež vyvíja metódy, ktoré umožnia vedcom bez hlbokých odborných znalostí v oblasti strojového učenia optimálne vyladiť a využívať modely strojového učenia pri ich objaviteľskej práci. To sa dosahuje prostredníctvom rámca Seer ML založeného na AutoML nástroj, ktorý umožňuje efektívne ladenie hyperparametrov pomocou bayesovskej optimalizácie.

Nakoniec vyvíjame metódy na zníženie dávkového efektu a zvýšenie kvantitatívnej presnosti odčítania hmotnostnej špecifikácie modelovaním nameraných kvantitatívnych hodnôt, aby sme maximalizovali očakávané metriky, ako je korelácia hodnôt intenzity naprieč peptidmi v rámci proteínovej skupiny.

Halucinácie sú bežným problémom LLM. Aké sú niektoré z riešení, ako tomu zabrániť alebo ho zmierniť?

LLM sú generatívne metódy, ktoré majú veľký korpus a sú trénované na generovanie podobného textu. Zachytávajú základné štatistické vlastnosti textu, na ktorom sú trénované, od jednoduchých miestnych vlastností, ako je napríklad to, ako často sa určité kombinácie slov (alebo symbolov) nachádzajú spolu, až po vlastnosti vyššej úrovne, ktoré napodobňujú pochopenie kontextu a významu.

LLM však nie sú primárne vyškolení, aby boli korektní. Posilňovacie učenie s ľudskou spätnou väzbou (RLHF) a ďalšie techniky im pomáhajú trénovať požadované vlastnosti vrátane správnosti, ale nie sú úplne úspešné. Po výzve vygenerujú LLM text, ktorý sa najviac podobá štatistickým vlastnostiam tréningových dát. Často je tento text tiež správny. Napríklad, ak sa spýtate „kedy sa narodil Alexander Veľký“, správna odpoveď je 356 pred Kristom (alebo pred Kristom) a LLM pravdepodobne dá túto odpoveď, pretože v údajoch o tréningu sa ako táto hodnota často objavuje narodenie Alexandra Veľkého. Avšak na otázku „kedy sa narodila cisárovná Reginella“, fiktívna postava, ktorá nie je prítomná v tréningovom korpuse, LLM pravdepodobne bude mať halucinácie a vytvorí príbeh o jej narodení. Podobne pri otázke, na ktorú LLM nemusí nájsť správnu odpoveď (buď preto, že správna odpoveď neexistuje, alebo na iné štatistické účely), bude pravdepodobne halucinovať a odpovedať, ako keby to vedel. To vytvára halucinácie, ktoré sú zjavným problémom pri vážnych aplikáciách, ako napríklad „ako sa dá liečiť taká a taká rakovina“.

Pre halucinácie zatiaľ neexistujú dokonalé riešenia. Sú endemické pre dizajn LLM. Jedným čiastočným riešením je správne nabádanie, ako napríklad požiadať LLM, aby „premýšľal starostlivo, krok za krokom“ atď. To zvyšuje pravdepodobnosť, že LLM nebudú vymýšľať príbehy. Sofistikovanejším prístupom, ktorý sa vyvíja, je použitie znalostných grafov. Znalostné grafy poskytujú štruktúrované údaje: entity v znalostnom grafe sú spojené s inými entitami preddefinovaným, logickým spôsobom. Vytvorenie znalostného grafu pre danú doménu je, samozrejme, náročná úloha, ale dá sa uskutočniť kombináciou automatizovaných a štatistických metód a kurátorstva. Vďaka vstavanému znalostnému grafu môžu LLM porovnať vyhlásenia, ktoré generujú, so štruktúrovaným súborom známych faktov a môžu byť obmedzené tak, aby nevygenerovali vyhlásenie, ktoré je v rozpore alebo nie je podporované znalostným grafom.

Kvôli základnej otázke halucinácií a pravdepodobne kvôli ich nedostatku dostatočných schopností uvažovania a úsudku sú LLM dnes silné na získavanie, spájanie a destiláciu informácií, ale nemôžu nahradiť ľudských expertov v serióznych aplikáciách, ako je lekárska diagnostika alebo právne poradenstvo. Napriek tomu môžu ohromne zvýšiť efektivitu a schopnosti ľudských expertov v týchto doménach.

Môžete sa podeliť o svoju víziu budúcnosti, v ktorej sa biológia riadi skôr údajmi než hypotézami?

Tradičný prístup založený na hypotézach, ktorý zahŕňa výskumníkov, ktorí hľadajú vzory, vyvíjajú hypotézy, vykonávajú experimenty alebo štúdie na ich testovanie a potom spresňujú teórie založené na údajoch, sa stáva nahradený novou paradigmou založenou na modelovaní založenom na údajoch.

V tejto vznikajúcej paradigme výskumníci začínajú s generovaním rozsiahlych údajov bez hypotéz. Potom trénujú model strojového učenia, ako je LLM, s cieľom presnej rekonštrukcie okludovaných údajov, silnej regresie alebo klasifikácie v množstve nadväzujúcich úloh. Akonáhle model strojového učenia dokáže presne predpovedať údaje a dosiahne vernosť porovnateľnú s podobnosťou medzi experimentálnymi replikáciami, výskumníci môžu vypočuť model, aby získali prehľad o biologickom systéme a rozpoznali základné biologické princípy.

Ukázalo sa, že LLM sú obzvlášť dobré pri modelovaní biomolekulových údajov a sú zamerané na posun od biologických objavov založených na hypotézach k biologickým objavom založeným na údajoch. Tento posun bude v priebehu nasledujúcich 10 rokov čoraz zreteľnejší a umožní presné modelovanie biomolekulových systémov s granularitou, ktorá výrazne presahuje ľudskú kapacitu.

Aký je potenciálny vplyv na diagnostiku chorôb a objavovanie liekov?

Verím, že LLM a generatívna AI povedú k významným zmenám v odvetví biologických vied. Jednou z oblastí, ktorá bude mať z LLM veľký úžitok, je klinická diagnostika, konkrétne pre zriedkavé, ťažko diagnostikované ochorenia a podtypy rakoviny. Existuje obrovské množstvo komplexných informácií o pacientoch, ktoré môžeme využiť – od genómových profilov, odpovedí na liečbu, lekárskych záznamov a rodinnej anamnézy – na presnú a včasnú diagnostiku. Ak dokážeme nájsť spôsob, ako zhromaždiť všetky tieto údaje tak, aby boli ľahko dostupné a aby ich jednotlivé zdravotnícke organizácie nezatajovali, môžeme dramaticky zlepšiť presnosť diagnostiky. To neznamená, že modely strojového učenia, vrátane LLM, budú schopné autonómne fungovať pri diagnostike. Kvôli svojim technickým obmedzeniam nebudú v dohľadnej dobe autonómne, ale namiesto toho rozšíria ľudských expertov. Budú to výkonné nástroje, ktoré pomôžu lekárovi poskytnúť dokonale informované hodnotenia a diagnózy za zlomok času potrebného k dnešnému dňu a správne zdokumentovať a oznámiť svoje diagnózy pacientovi, ako aj celej sieti poskytovateľov zdravotnej starostlivosti pripojených cez prístroj. vzdelávací systém.

Priemysel už využíva strojové učenie na objavovanie a vývoj liekov, pričom propaguje svoju schopnosť znižovať náklady a časové harmonogramy v porovnaní s tradičnou paradigmou. LLM ďalej pridávajú do dostupného súboru nástrojov a poskytujú vynikajúce rámce na modelovanie rozsiahlych biomolekulárnych údajov vrátane genómov, proteómov, funkčných genómových a epigenomických údajov, údajov o jednej bunke a ďalších. V dohľadnej budúcnosti sa nadačné LLM nepochybne spoja naprieč všetkými týmito dátovými modalitami a medzi veľkými kohortami jednotlivcov, ktorých genomické, proteomické a zdravotné informácie sa zhromažďujú. Takéto LLM pomôžu pri vytváraní sľubných liekových cieľov, identifikujú pravdepodobné oblasti aktivity proteínov spojených s biologickou funkciou a ochorením alebo navrhnú cesty a zložitejšie bunkové funkcie, ktoré môžu byť modulované špecifickým spôsobom pomocou malých molekúl alebo iných liekových modalít. Môžeme tiež využiť LLM, aby sme identifikovali pacientov, ktorí reagujú na lieky a nereagujú na lieky, na základe genetickej náchylnosti, alebo na opätovné použitie liekov v iných indikáciách ochorenia. Mnohé z existujúcich inovatívnych spoločností na objavovanie liekov založených na umelej inteligencii už nepochybne začínajú uvažovať a rozvíjať sa týmto smerom a mali by sme očakávať vytvorenie ďalších spoločností, ako aj verejné úsilie zamerané na nasadenie LLM v oblasti ľudského zdravia a liekov. objav.

Ďakujeme za podrobný rozhovor, čitatelia, ktorí sa chcú dozvedieť viac, by mali navštíviť jasnovidec.

Zakladajúci partner unite.AI a člen skupiny Technologická rada Forbes, Antoine je a Futurist ktorý je nadšený budúcnosťou AI a robotiky.

Je tiež zakladateľom Cenné papiere.io, web, ktorý sa zameriava na investovanie do prevratných technológií.