Spojte se s námi

rozhovory

Dr. Serafim Batzoglou, Chief Data Officer ve společnosti Seer – Interview Series

mm

Zveřejněno

 on

Serafim Batzoglou je Chief Data Officer ve společnosti Seer. Před nástupem do společnosti Seer působil Serafim jako Chief Data Officer ve společnosti Insitro, vedoucí strojového učení a datové vědy v jejich přístupu k objevování léků. Před Insitro působil jako viceprezident aplikované a výpočetní biologie ve společnosti Illumina, kde vedl výzkum a technologický vývoj umělé inteligence a molekulárních testů pro lepší interpretaci genomických dat pro lidské zdraví.

Co vás zpočátku přitahovalo na poli genomiky?

O obor výpočetní biologie jsem se začal zajímat na začátku doktorátu z informatiky na MIT, kdy jsem se zúčastnil kurzu na téma, které vyučovala Bonnie Berger, která se stala mojí doktorandkou, a David Gifford. Projekt lidského genomu během mého PhD nabíral na rychlosti. Eric Lander, který vedl Genome Center na MIT, se stal mým doktorandským spoluporadcem a zapojil mě do projektu. Motivován projektem lidského genomu jsem pracoval na sestavení celého genomu a komparativní genomice lidské a myší DNA.

Poté jsem se přestěhoval na Stanford University jako fakulta na katedře informatiky, kde jsem strávil 15 let, a měl jsem tu čest poradit asi 30 neuvěřitelně talentovaným doktorandům a mnoha postdoktorandským výzkumníkům a vysokoškolákům. Můj tým se zaměřuje na aplikaci algoritmů, strojového učení a vytváření softwarových nástrojů pro analýzu rozsáhlých genomických a biomolekulárních dat. Odešel jsem ze Stanfordu v roce 2016, abych vedl výzkumný a technologický vývojový tým ve společnosti Illumina. Od té doby mě baví vést výzkumné a vývojové týmy v průmyslu. Zjistil jsem, že týmová práce, obchodní aspekt a přímější dopad na společnost jsou charakteristické pro průmysl ve srovnání s akademickou sférou. Během své kariéry jsem pracoval v inovativních společnostech: DNAnexus, kterou jsem v roce 2009 spoluzaložil, Illumina, insitro a nyní Seer. Výpočet a strojové učení jsou zásadní v celém technologickém řetězci v biotechnologiích, od vývoje technologií přes získávání dat až po interpretaci biologických dat a jejich překlad do lidského zdraví.

Za posledních 20 let se sekvenování lidského genomu výrazně zlevnilo a zrychlilo. To vedlo k dramatickému růstu na trhu sekvenování genomu a širšímu přijetí v průmyslu biologických věd. Nyní jsme na vrcholu toho, že máme k dispozici populační genomická, multiomická a fenotypová data dostatečné velikosti, aby smysluplná revolucionizovala zdravotní péči včetně prevence, diagnostiky, léčby a objevování léků. Prostřednictvím výpočetní analýzy genomických dat můžeme stále více objevovat molekulární základy onemocnění pro jednotlivce a pacienti mají šanci získat personalizovanou a cílenou léčbu, zejména v oblastech rakoviny a vzácných genetických onemocnění. Kromě zřejmého použití v medicíně nám strojové učení ve spojení s genomickými informacemi umožňuje získat vhled do dalších oblastí našeho života, jako je naše genealogie a výživa. V příštích několika letech dojde k přijetí personalizované zdravotní péče založené na datech, nejprve pro vybrané skupiny lidí, jako jsou pacienti se vzácnými onemocněními, a stále více pro širokou veřejnost.

Před svou současnou funkcí jste byl Chief Data Officer ve společnosti Insitro, vedoucí strojové učení a datová věda v jejich přístupu k objevování léků. Jaké byly některé z vašich klíčových poznatků z tohoto časového období s tím, jak lze strojové učení využít k urychlení objevování léků?

Konvenční paradigma objevování a vývoje léků „pokus-omyl“ je sužováno neefektivitou a extrémně dlouhými časovými osami. Aby se jeden lék dostal na trh, může to trvat až 1 miliardu dolarů a více než deset let. Začleněním strojového učení do těchto snah můžeme dramaticky snížit náklady a časové rámce v několika krocích na cestě. Jedním z kroků je identifikace cíle, kdy gen nebo soubor genů, které modulují fenotyp onemocnění nebo navracejí stav buněk onemocnění do zdravějšího stavu, lze identifikovat pomocí rozsáhlých genetických a chemických poruch a fenotypových výstupů, jako je zobrazování a funkční genomika. . Dalším krokem je identifikace a optimalizace sloučenin, kdy lze malou molekulu nebo jinou modalitu navrhnout strojovým učením řízené in silico predikcí i in vitro screeningem a navíc požadované vlastnosti léčiva, jako je rozpustnost, permeabilita, specificita a toxicitu lze optimalizovat. Nejtěžším a zároveň nejdůležitějším aspektem je možná překlad na lidi. Zde výběr správného modelu – indukované pluripotentní linie odvozené z kmenových buněk oproti primárním buněčným liniím pacientů a vzorky tkání versus zvířecí modely – pro správnou nemoc představuje neuvěřitelně důležitou sadu kompromisů, které se v konečném důsledku odrážejí ve schopnosti výsledných dat a stroje. naučit se překládat pacientům.

Seer Bio je průkopníkem nových způsobů, jak dekódovat tajemství proteomu pro zlepšení lidského zdraví, pro čtenáře, kteří tento termín neznají, co je to proteom?

Projekt proteom je měnící se soubor proteinů produkovaných nebo modifikovaných organismem v průběhu času a v reakci na prostředí, výživu a zdravotní stav. Proteomika je studium proteomu v daném buněčném typu nebo vzorku tkáně. Genom člověka nebo jiných organismů je statický: s důležitou výjimkou somatických mutací je genom při narození genom, který má člověk celý život, přesně zkopírovaný v každé buňce svého těla. Proteom je dynamický a mění se v časových rozpětích let, dnů a dokonce i minut. Jako takové jsou proteomy mnohem blíže k fenotypu a v konečném důsledku ke zdravotnímu stavu než genomy, a v důsledku toho jsou více informativní pro sledování zdraví a pochopení onemocnění.

Ve společnosti Seer jsme vyvinuli nový způsob přístupu k proteomu, který poskytuje hlubší pohled na proteiny a proteoformy v komplexních vzorcích, jako je plazma, což je vysoce dostupný vzorek, který bohužel doposud představuje velkou výzvu pro konvenční proteomiku hmotnostní spektrometrie.

Co je platforma Seer's Proteograph™ a jak nabízí nový pohled na proteom?

Platforma Seer's Proteograph využívá knihovnu proprietárních navržených nanočástic, poháněných jednoduchým, rychlým a automatizovaným pracovním postupem, umožňujícím hluboký a škálovatelný dotaz na proteom.

Platforma Proteograph září ve výslechové plazmě a dalších komplexních vzorcích, které vykazují velký dynamický rozsah – mnoho řádových rozdílů v množství různých proteinů ve vzorku – kde běžné metody hmotnostní spektrometrie nejsou schopny detekovat část proteomu s nízkým výskytem. Seerovy nanočástice jsou navrženy s laditelnými fyzikálně-chemickými vlastnostmi, které shromažďují proteiny v dynamickém rozsahu nezaujatým způsobem. V typických vzorcích plazmy naše technologie umožňuje detekci 5x až 8x více proteinů než při zpracování čisté plazmy bez použití Proteografu. Výsledkem je, že od přípravy vzorku přes přístrojové vybavení až po analýzu dat naše sada produktů Proteograph pomáhá vědcům najít příznaky onemocnění proteomů, které by jinak mohly být nezjistitelné. Rádi říkáme, že v Seer otevíráme novou bránu k proteomu.

Kromě toho umožňujeme vědcům snadno provádět rozsáhlé proteogenomické studie. Proteogenomika je spojení genomických dat s proteomickými daty za účelem identifikace a kvantifikace proteinových variant, propojení genomových variant s hladinami nadbytku proteinů a nakonec spojení genomu a proteomu s fenotypem a nemocí a zahájením oddělování kauzálních a následných genetických cest spojených s nemocí. .

Můžete pohovořit o některých technologiích strojového učení, které se v současnosti v Seer Bio používají?

Seer využívá strojové učení ve všech krocích od vývoje technologie po následnou analýzu dat. Tyto kroky zahrnují: (1) návrh našich vlastních nanočástic, kde nám strojové učení pomáhá určit, které fyzikálně-chemické vlastnosti a kombinace nanočástic budou fungovat se specifickými produktovými řadami a testy; (2) detekce a kvantifikace peptidů, proteinů, variant a proteoforem z odečtených dat získaných z přístrojů MS; (3) následné proteomické a proteogenomické analýzy ve velkých populačních kohortách.

V loňském roce jsme publikoval článek v Advanced Materials kombinující proteomické metody, nanoinženýrství a strojové učení pro lepší pochopení mechanismů tvorby proteinové koróny. Tento dokument odhalil nano-bio interakce a informuje Seera při vytváření vylepšených budoucích nanočástic a produktů.

Kromě vývoje nanočástic se vyvíjíme nové algoritmy pro identifikaci variantních peptidů a posttranslačních modifikací (PTM). Nedávno jsme vyvinuli metodu pro detekce proteinových kvantifikovaných lokusů rysů (pQTL), který je odolný vůči proteinovým variantám, což je známý matoucí faktor pro afinitní proteomiku. Rozšiřujeme tuto práci o přímou identifikaci těchto peptidů z nezpracovaných spekter pomocí de novo sekvenačních metod založených na hlubokém učení, abychom umožnili vyhledávání bez nafouknutí velikosti spektrálních knihoven.

Náš tým také vyvíjí metody, které vědcům bez hlubokých zkušeností se strojovým učením umožní optimálně vyladit a využít modely strojového učení při své objevné práci. Toho je dosaženo prostřednictvím rámce Seer ML založeného na AutoML nástroj, který umožňuje efektivní ladění hyperparametrů pomocí Bayesovské optimalizace.

Konečně vyvíjíme metody pro snížení dávkového efektu a zvýšení kvantitativní přesnosti odečtu hmotnostní specifikace modelováním naměřených kvantitativních hodnot pro maximalizaci očekávaných metrik, jako je korelace hodnot intenzity napříč peptidy v rámci proteinové skupiny.

Halucinace jsou běžným problémem u LLM, jaká jsou některá řešení, jak tomu zabránit nebo je zmírnit?

LLM jsou generativní metody, které mají velký korpus a jsou trénovány tak, aby generovaly podobný text. Zachycují základní statistické vlastnosti textu, na kterém jsou trénováni, od jednoduchých místních vlastností, jako je četnost nalezení určitých kombinací slov (nebo tokenů), až po vlastnosti vyšší úrovně, které napodobují porozumění kontextu a významu.

LLM však nejsou primárně školeni, aby byli korektní. Posílené učení s lidskou zpětnou vazbou (RLHF) a další techniky jim pomáhají trénovat žádoucí vlastnosti včetně správnosti, ale nejsou plně úspěšné. Po výzvě LLM vygenerují text, který se nejvíce podobá statistickým vlastnostem trénovacích dat. Často je tento text také správný. Pokud se například zeptáte „kdy se narodil Alexandr Veliký“, správná odpověď je 356 př. n. l. (neboli př. n. l.) a LLM tuto odpověď pravděpodobně odpoví, protože v tréninkových datech se jako tato hodnota často objevuje narození Alexandra Velikého. Nicméně na otázku „kdy se narodila císařovna Reginella“, fiktivní postava, která není přítomna v tréninkovém korpusu, LLM pravděpodobně bude halucinovat a vytvořit příběh jejího narození. Podobně, když je položena otázka, na kterou LLM nemusí najít správnou odpověď (buď proto, že správná odpověď neexistuje, nebo pro jiné statistické účely), pravděpodobně bude mít halucinace a odpoví, jako by věděla. To vytváří halucinace, které jsou zřejmým problémem pro vážné aplikace, jako například „jak lze takovou a takovou rakovinu léčit“.

Pro halucinace zatím neexistují žádná dokonalá řešení. Jsou endemické pro design LLM. Jedním částečným řešením je správné nabádání, jako je požadavek na LLM, aby „přemýšlel pečlivě, krok za krokem“ a tak dále. To zvyšuje pravděpodobnost, že LLM nebudou vymýšlet příběhy. Sofistikovanějším přístupem, který se vyvíjí, je použití znalostních grafů. Znalostní grafy poskytují strukturovaná data: entity ve znalostním grafu jsou propojeny s jinými entitami předdefinovaným, logickým způsobem. Vytvoření znalostního grafu pro danou doménu je samozřejmě náročný úkol, ale proveditelný kombinací automatizovaných a statistických metod a kurátorství. S vestavěným znalostním grafem mohou LLM porovnávat prohlášení, která generují, se strukturovaným souborem známých faktů a mohou být omezeni tak, aby nevytvářeli prohlášení, které je v rozporu nebo není podporováno znalostním grafem.

Kvůli zásadnímu problému halucinací a pravděpodobně kvůli jejich nedostatku dostatečných schopností uvažování a úsudku jsou LLM dnes mocné pro získávání, spojování a destilaci informací, ale nemohou nahradit lidské experty ve vážných aplikacích, jako je lékařská diagnostika nebo právní poradenství. Přesto mohou ohromně zvýšit efektivitu a schopnosti lidských expertů v těchto oblastech.

Můžete se podělit o svou vizi budoucnosti, kde se biologie bude řídit spíše daty než hypotézami?

Tradiční přístup založený na hypotézách, který zahrnuje výzkumníky, kteří nalézají vzory, vyvíjejí hypotézy, provádějí experimenty nebo studie k jejich testování a poté zdokonalují teorie založené na datech, začíná být nahrazeno novým paradigmatem založeným na modelování založeném na datech.

V tomto nově vznikajícím paradigmatu začínají výzkumníci s generováním dat ve velkém měřítku bez hypotéz. Poté trénují model strojového učení, jako je LLM, s cílem přesné rekonstrukce uzavřených dat, silné regrese nebo klasifikace v řadě následných úloh. Jakmile model strojového učení dokáže přesně předpovědět data a dosáhne věrnosti srovnatelné s podobností mezi experimentálními replikacemi, mohou výzkumníci tento model zkoumat, aby získali náhled na biologický systém a rozeznali základní biologické principy.

Ukázalo se, že LLM jsou obzvláště dobré v modelování biomolekulárních dat a jsou zaměřeny na to, aby podpořily posun od biologických objevů řízených hypotézami k biologickým objevům řízeným daty. Tento posun bude během příštích 10 let stále zřetelnější a umožní přesné modelování biomolekulárních systémů s granularitou, která značně přesahuje lidské kapacity.

Jaký je potenciální dopad na diagnostiku onemocnění a objevování léků?

Věřím, že LLM a generativní AI povedou k významným změnám v odvětví biologických věd. Jednou oblastí, která bude mít z LLM velký prospěch, je klinická diagnostika, konkrétně pro vzácná, obtížně diagnostikovatelná onemocnění a podtypy rakoviny. Existuje ohromné ​​množství komplexních informací o pacientech, které můžeme využít – od genomických profilů, léčebných odpovědí, lékařských záznamů a rodinné anamnézy – k dosažení přesné a včasné diagnózy. Pokud najdeme způsob, jak shromáždit všechna tato data tak, aby byla snadno dostupná a nebyla umlčena jednotlivými zdravotnickými organizacemi, můžeme dramaticky zlepšit diagnostickou přesnost. To neznamená, že modely strojového učení, včetně LLM, budou schopny autonomně fungovat v diagnostice. Kvůli svým technickým omezením nebudou v dohledné době autonomní, ale naopak rozšíří lidské experty. Budou to výkonné nástroje, které pomohou lékaři poskytovat dokonale informovaná hodnocení a diagnózy za zlomek času potřebného k dnešnímu dni a řádně dokumentovat a sdělovat své diagnózy pacientovi i celé síti poskytovatelů zdravotní péče připojených přes přístroj. systém učení.

Průmysl již využívá strojové učení pro objevování a vývoj léků a propaguje svou schopnost snížit náklady a časové osy ve srovnání s tradičním paradigmatem. LLM dále rozšiřují dostupnou sadu nástrojů a poskytují vynikající rámce pro modelování rozsáhlých biomolekulárních dat včetně genomů, proteomů, funkčních genomických a epigenomických dat, jednobuněčných dat a dalších. V dohledné budoucnosti se nadační LLM nepochybně propojí napříč všemi těmito datovými modalitami a napříč velkými kohortami jedinců, jejichž genomické, proteomické a zdravotní informace se shromažďují. Takové LLM pomohou při generování slibných léčivých cílů, identifikují pravděpodobné oblasti aktivity proteinů spojených s biologickou funkcí a onemocněním nebo navrhnou cesty a složitější buněčné funkce, které mohou být modulovány specifickým způsobem pomocí malých molekul nebo jiných lékových modalit. Můžeme také využít LLM, abychom identifikovali osoby, které reagují na léky a nereagují na léky, na základě genetické vnímavosti, nebo abychom znovu použili léky v jiných indikacích onemocnění. Mnoho ze stávajících inovativních společností zabývajících se objevováním léků na bázi umělé inteligence již nepochybně začíná uvažovat a vyvíjet se tímto směrem a měli bychom očekávat, že vzniknou další společnosti a také veřejné úsilí zaměřené na nasazení LLM v oblasti lidského zdraví a léků. objev.

Děkujeme za podrobný rozhovor, čtenáři, kteří se chtějí dozvědět více, by měli navštívit Seer.

Zakládající partner unite.AI a člen Technologická rada Forbes, Antoine je a futurista který je zapálený pro budoucnost umělé inteligence a robotiky.

Je také zakladatelem Cenné papíry.io, web, který se zaměřuje na investice do převratných technologií.