stub Dr. Serafimas Batzoglou, „Seer“ vyriausiasis duomenų pareigūnas – interviu serija – Unite.AI
Susisiekti su mumis

Interviu

Dr. Serafimas Batzoglou, „Seer – Interviu“ serijos vyriausiasis duomenų pareigūnas

mm

paskelbta

 on

Serafimas Batzoglou yra vyriausiasis duomenų pareigūnas Matytojas. Prieš prisijungdamas prie „Seer“, Serafimas ėjo „Insitro“ vyriausiojo duomenų pareigūno pareigas, vadovavo mašinų mokymuisi ir duomenų mokslui savo požiūriu į vaistų atradimą. Prieš dirbdamas Insitro, jis dirbo taikomosios ir skaičiavimo biologijos viceprezidentu Illumina, vadovavo dirbtinio intelekto ir molekulinių tyrimų tyrimams ir technologijų plėtrai, kad genominiai duomenys būtų geriau interpretuojami žmonių sveikatai.

Kuo jus iš pradžių patraukė genomikos sritis?

Kompiuterinės biologijos sritimi susidomėjau pradėdamas studijuoti kompiuterių mokslų daktaro laipsnį MIT, kai lankiau paskaitą šia tema, kurią dėstė Bonnie Berger, kuri tapo mano patarėju doktorantūroje, ir Davidas Giffordas. Žmogaus genomo projektas įsibėgėjo mano doktorantūroje. Ericas Landeris, kuris vadovavo MIT Genomo centrui, tapo mano doktorantūros patarėju ir įtraukė mane į projektą. Motyvuotas žmogaus genomo projekto, dirbau su viso genomo surinkimu ir lyginamąja žmogaus ir pelės DNR genomika.

Tada persikėliau į Stenfordo universitetą kaip dėstytojas Kompiuterių mokslų katedroje, kur praleidau 15 metų ir turėjau privilegiją galėdamas patarti apie 30 neįtikėtinai talentingų doktorantų ir daugybei doktorantūros studijų tyrėjų ir bakalauro studijų studentų. Mano komanda daugiausia dėmesio skyrė algoritmų taikymui, mašininiam mokymuisi ir programinės įrangos įrankių kūrimui didelio masto genominių ir biomolekulinių duomenų analizei. 2016 m. išėjau iš Stenfordo, kad vadovaučiau „Illumina“ tyrimų ir technologijų plėtros komandai. Nuo tada man patiko vadovauti pramonės tyrimų ir plėtros komandoms. Manau, kad pramonei, palyginti su akademine bendruomene, būdingas komandinis darbas, verslo aspektas ir tiesioginis poveikis visuomenei. Per savo karjerą dirbau naujoviškose įmonėse: DNAnexus, kurią įkūriau 2009 m., Illumina, insitro ir dabar Seer. Skaičiavimas ir mašininis mokymasis yra labai svarbūs visoje biotechnologijų grandinėje, pradedant technologijų kūrimu, baigiant duomenų gavimu ir baigiant biologinių duomenų interpretavimu ir vertimu į žmonių sveikatą.

Per pastaruosius 20 metų žmogaus genomo sekos nustatymas tapo daug pigesnis ir greitesnis. Tai paskatino dramatišką genomo sekos rinkos augimą ir platesnį pritaikymą gyvosios gamtos mokslų pramonėje. Šiuo metu turime pakankamai didelio populiacijos genominių, daugiafunkcinių ir fenotipinių duomenų, kad galėtume reikšmingai pakeisti sveikatos priežiūrą, įskaitant prevenciją, diagnostiką, gydymą ir vaistų atradimą. Skaičiuodami genominių duomenų analizę galime vis dažniau atrasti individų ligų molekulinius pagrindus, o pacientai turi galimybę gauti individualizuotą ir tikslinį gydymą, ypač vėžio ir retų genetinių ligų srityse. Be akivaizdaus naudojimo medicinoje, mašininis mokymasis kartu su genomo informacija leidžia mums įgyti įžvalgų apie kitas mūsų gyvenimo sritis, tokias kaip genealogija ir mityba. Per ateinančius kelerius metus bus pritaikyta suasmeninta, duomenimis pagrįsta sveikatos priežiūra, pirmiausia tam tikroms žmonių grupėms, pavyzdžiui, pacientams, sergantiems retomis ligomis, ir vis plačiau plačiajai visuomenei.

Prieš eidamas dabartines pareigas buvote vyriausiasis duomenų pareigūnas Insitro, pirmaujantis mašinų mokymuisi ir duomenų mokslui savo požiūriu į vaistų atradimą. Kokie buvo jūsų pagrindiniai šio laikotarpio įspūdžiai, kaip mašininis mokymasis gali būti naudojamas paspartinti vaistų atradimą?

Įprasta vaistų atradimo ir kūrimo „bandymų ir klaidų“ paradigma yra apimta neveiksmingumo ir itin ilgų terminų. Vienam vaistui patekti į rinką gali prireikti daugiau nei 1 milijardo dolerių ir daugiau nei dešimtmetį. Į šias pastangas įtraukę mašininį mokymąsi, keliais etapais galime žymiai sumažinti išlaidas ir laiką. Vienas iš žingsnių yra taikinio identifikavimas, kai genas arba genų rinkinys, kuris moduliuoja ligos fenotipą arba grąžina ligos ląstelių būseną į sveikesnę būseną, gali būti identifikuojamas naudojant didelio masto genetinius ir cheminius sutrikimus ir fenotipinius rodmenis, pvz., vaizdavimą ir funkcinę genomiką. . Kitas žingsnis yra junginio identifikavimas ir optimizavimas, kai maža molekulė ar kitas būdas gali būti sukurtas naudojant mašininį mokymąsi pagrįstą in silico prognozavimą, taip pat atranką in vitro ir, be to, pageidaujamos vaisto savybės, tokios kaip tirpumas, pralaidumas, specifiškumas ir ne. toksiškumas gali būti optimizuotas. Sunkiausias ir svarbiausias aspektas galbūt yra vertimas žmonėms. Čia tinkamo modelio pasirinkimas – sukeltos pluripotentinės kamieninių ląstelių linijos, palyginti su pirminėmis pacientų ląstelių linijomis ir audinių mėginiai, palyginti su gyvūnų modeliais – tinkama ligai nustatyti yra nepaprastai svarbus kompromisų rinkinys, kuris galiausiai atspindi gautų duomenų ir mašinos gebėjimą. mokytis versti pacientams.

„Seer Bio“ kuria naujus būdus, kaip iššifruoti proteomo paslaptis, kad pagerintų žmonių sveikatą, skaitytojams, kurie nepažįsta šio termino, kas yra proteomas?

Šios proteomas yra kintantis baltymų rinkinys, kurį organizmas gamina arba modifikuoja laikui bėgant ir reaguodamas į aplinką, mitybą ir sveikatos būklę. Proteomika yra tam tikro tipo ląstelės arba audinio mėginio proteomo tyrimas. Žmogaus ar kitų organizmų genomas yra statinis: išskyrus svarbią somatinių mutacijų išimtį, genomas gimimo metu yra tas genomas, kuris turi visą gyvenimą, tiksliai nukopijuojamas kiekvienoje jo kūno ląstelėje. Proteomas yra dinamiškas ir keičiasi metų, dienų ir net minučių laikotarpiais. Taigi proteomos yra daug artimesnės fenotipui ir galiausiai sveikatos būklei nei genomai, todėl yra informatyvesni norint stebėti sveikatą ir suprasti ligą.

„Seer“ sukūrėme naują būdą pasiekti proteomą, kuris suteikia gilesnių įžvalgų apie baltymus ir proteoformas sudėtinguose mėginiuose, tokiuose kaip plazma, kuris yra labai prieinamas mėginys, kuris, deja, iki šiol yra didelis iššūkis įprastinei masės spektrometrijos proteomikai.

Kas yra Seer's Proteograph™ platforma ir kaip ji siūlo naują proteomo vaizdą?

„Seer's Proteograph“ platforma naudoja patentuotų inžinerinių nanodalelių biblioteką, kurią maitina paprasta, greita ir automatizuota darbo eiga, leidžianti giliai ir keičiamo masto tirti proteomą.

Platforma „Proteograph“ šviečia tiriant plazmą ir kitus sudėtingus mėginius, kurie pasižymi dideliu dinaminiu diapazonu – daugybe dydžių skirtumų tarp įvairių baltymų gausos mėginyje – kai įprasti masių spektrometrijos metodai negali aptikti mažos proteomo dalies. Seer nanodalelės yra sukurtos su reguliuojamomis fizikinėmis ir cheminėmis savybėmis, kurios nešališkai surenka baltymus visame dinaminiame diapazone. Įprastuose plazmos mėginiuose mūsų technologija leidžia aptikti 5–8 kartus daugiau baltymų nei apdorojant gryną plazmą nenaudojant proteografo. Dėl to nuo mėginių paruošimo iki prietaisų iki duomenų analizės mūsų „Proteograph Product Suite“ padeda mokslininkams rasti proteomų ligų požymius, kurių kitu atveju nebūtų galima aptikti. Mums patinka sakyti, kad „Seer“ atveriame naujus vartus į proteomą.

Be to, leidžiame mokslininkams lengvai atlikti didelio masto proteogenominius tyrimus. Proteogenomika yra genominių duomenų derinimas su proteominiais duomenimis, siekiant nustatyti ir kiekybiškai įvertinti baltymų variantus, susieti genominius variantus su baltymų gausos lygiais ir galiausiai susieti genomą ir proteomą su fenotipu ir liga bei pradėti atskirti su liga susijusius priežastinius ir paskesnius genetinius kelius. .

Ar galite aptarti kai kurias mašininio mokymosi technologijas, kurios šiuo metu naudojamos „Seer Bio“?

„Seer“ naudoja mašininį mokymąsi visuose etapuose nuo technologijų kūrimo iki tolesnių duomenų analizės. Šie žingsniai apima: (1) mūsų patentuotų nanodalelių projektavimą, kai mašininis mokymasis padeda mums nustatyti, kurios nanodalelių fizikinės ir cheminės savybės ir deriniai veiks su konkrečiomis produktų linijomis ir tyrimais; 2) peptidų, baltymų, variantų ir proteoformų aptikimas ir kiekybinis įvertinimas pagal nuskaitymo duomenis, gautus iš MS prietaisų; (3) pasroviui atliekamos proteominės ir proteogenominės analizės didelio masto gyventojų grupėse.

Pernai mes paskelbė straipsnį „Advanced Materials“. derinant proteomikos metodus, nanoinžineriją ir mašininį mokymąsi, kad pagerintume mūsų supratimą apie baltymų vainiko formavimosi mechanizmus. Šis dokumentas atskleidė nano-biologinę sąveiką ir informuoja Seer kuriant patobulintas ateities nanodaleles ir produktus.

Be nanodalelių kūrimo, mes kūrėme nauji algoritmai, skirti identifikuoti peptidų variantus ir potransliacines modifikacijas (PTM). Neseniai sukūrėme metodą, skirtą baltymų kiekybiškai įvertintų požymių lokusų aptikimas (pQTL), kuris yra atsparus baltymų variantams, o tai yra žinomas afiniteto proteomikos trikdis. Mes plečiame šį darbą, norėdami tiesiogiai identifikuoti šiuos peptidus iš neapdorotų spektrų, naudodami giluminiu mokymusi pagrįstus de novo sekos metodus, kad būtų galima ieškoti nepadidinant spektrinių bibliotekų dydžio.

Mūsų komanda taip pat kuria metodus, leidžiančius mokslininkams, neturintiems gilios mašininio mokymosi patirties, optimaliai suderinti ir panaudoti mašininio mokymosi modelius savo atradimų darbe. Tai pasiekiama naudojant Seer ML sistemą, pagrįstą „AutoML“ įrankis, leidžiantis efektyviai derinti hiperparametrus naudojant Bajeso optimizavimą.

Galiausiai, mes kuriame metodus, kaip sumažinti partijos efektą ir padidinti kiekybinį masės specifikacijos nuskaitymo tikslumą, modeliuodami išmatuotas kiekybines reikšmes, kad maksimaliai padidintume numatomus rodiklius, tokius kaip intensyvumo verčių koreliacija tarp peptidų baltymų grupėje.

Haliucinacijos yra dažna LLM problema. Kokie yra sprendimai, kaip tai išvengti arba sumažinti?

LLM yra generatyvūs metodai, kuriems suteikiamas didelis korpusas ir kurie yra išmokyti generuoti panašų tekstą. Jie fiksuoja pagrindines statistines teksto ypatybes, kuriomis jie mokosi, nuo paprastų vietinių savybių, pvz., kaip dažnai kartu randami tam tikri žodžių deriniai (arba žetonai), iki aukštesnio lygio savybių, kurios imituoja konteksto ir prasmės supratimą.

Tačiau LLM pirmiausia nėra mokomi būti teisingi. Mokymasis su žmogaus grįžtamuoju ryšiu (RLHF) ir kiti metodai padeda išmokyti juos įgyti pageidaujamų savybių, įskaitant teisingumą, tačiau jie nėra visiškai sėkmingi. Gavę raginimą, LLM sugeneruos tekstą, kuris labiausiai panašus į statistines mokymo duomenų savybes. Dažnai šis tekstas taip pat yra teisingas. Pavyzdžiui, paklausus „kada gimė Aleksandras Makedonietis“, teisingas atsakymas yra 356 m. pr. Kr. (arba BCE), o LLM greičiausiai pateiks šį atsakymą, nes mokymo duomenyse Aleksandro Makedoniečio gimimas dažnai nurodomas kaip ši reikšmė. Tačiau paklausus „kada gimė imperatorienė Reginella“, išgalvotas veikėjas, kurio nėra mokymo korpuse, LLM greičiausiai sukels haliucinacijas ir sukurs jos gimimo istoriją. Panašiai, kai užduodamas klausimas, į kurį LLM gali negauti teisingo atsakymo (dėl to, kad teisingo atsakymo nėra, arba kitais statistiniais tikslais), jis greičiausiai sukels haliucinacijas ir atsakys taip, lyg žinotų. Tai sukelia haliucinacijas, kurios yra akivaizdi problema rimtiems tikslams, pavyzdžiui, „kaip galima gydyti tokį ir tokį vėžį“.

Tobulų sprendimų haliucinacijoms dar nėra. Jie yra būdingi LLM dizainui. Vienas iš dalinių sprendimų yra tinkamas raginimas, pavyzdžiui, prašymas LLM „atsargiai apgalvoti, žingsnis po žingsnio“ ir pan. Tai padidina LLM tikimybę nekurti istorijų. Kuriamas sudėtingesnis metodas yra žinių grafikų naudojimas. Žinių grafikai pateikia struktūrizuotus duomenis: žinių grafiko esybės yra susietos su kitomis esybėmis iš anksto nustatytu logišku būdu. Žinoma, tam tikros srities žinių grafiko sudarymas yra sudėtinga užduotis, tačiau ją galima atlikti derinant automatinius ir statistinius metodus bei kuravimą. Naudodami integruotą žinių grafiką, LLM gali kryžmiškai patikrinti savo generuojamus teiginius, palyginti su struktūrizuotu žinomų faktų rinkiniu, ir gali būti priverstas negeneruoti teiginio, kuris prieštarauja žinių grafikui arba neparemtas jos.

Dėl pagrindinės haliucinacijų problemos ir, be abejo, dėl nepakankamo argumentavimo ir sprendimo gebėjimų, LLM šiandien yra galingi informacijos paieškai, prijungimui ir distiliavimui, tačiau negali pakeisti žmonių ekspertų rimtose srityse, tokiose kaip medicininė diagnostika ar teisinė konsultacija. Vis dėlto jie gali nepaprastai padidinti žmonių ekspertų efektyvumą ir gebėjimus šiose srityse.

Ar galite pasidalinti savo vizija apie ateitį, kurioje biologiją valdys duomenys, o ne hipotezės?

Tradicinį hipotezėmis pagrįstą metodą, kai mokslininkai randa modelius, kuria hipotezes, atlieka eksperimentus ar tyrimus joms patikrinti, o vėliau tobulina teorijas remiantis duomenimis, išstumia nauja paradigma, pagrįsta duomenimis grindžiamu modeliavimu.

Šioje besiformuojančioje paradigmoje tyrėjai pradeda nuo hipotezių, didelio masto duomenų generavimo. Tada jie apmoko mašininio mokymosi modelį, pvz., LLM, siekdami tiksliai atkurti užblokuotus duomenis, stiprią regresiją arba klasifikavimo našumą atliekant daugybę tolesnių užduočių. Kai mašininio mokymosi modelis gali tiksliai numatyti duomenis ir pasiekia patikimumą, panašų į eksperimentinių pakartojimų panašumą, mokslininkai gali apklausti modelį, kad gautų įžvalgų apie biologinę sistemą ir įžvelgtų pagrindinius biologinius principus.

LLM pasirodė esąs ypač geras modeliuojant biomolekulinius duomenis ir yra skirtas paskatinti perėjimą nuo hipotezėmis pagrįsto prie duomenimis pagrįsto biologinio atradimo. Šis pokytis per ateinančius 10 metų taps vis ryškesnis ir leis tiksliai modeliuoti biomolekulines sistemas tokiu detalumu, kuris gerokai viršija žmogaus galimybes.

Koks galimas poveikis ligų diagnostikai ir vaistų atradimui?

Tikiu, kad LLM ir generatyvus AI sukels reikšmingų pokyčių gyvosios gamtos mokslų pramonėje. Viena iš sričių, kuriai bus daug naudos iš LLM, yra klinikinė diagnozė, ypač retų, sunkiai diagnozuojamų ligų ir vėžio potipių atveju. Siekdami nustatyti tikslią ir savalaikę diagnozę, galime gauti labai daug išsamios informacijos apie pacientus – nuo ​​genomo profilių, gydymo atsakų, medicininių įrašų ir šeimos istorijos. Jei galime rasti būdą, kaip surinkti visus šiuos duomenis taip, kad jie būtų lengvai pasiekiami, o ne atskiros sveikatos organizacijos, galime žymiai pagerinti diagnostikos tikslumą. Tai nereiškia, kad mašininio mokymosi modeliai, įskaitant LLM, galės savarankiškai veikti diagnozuojant. Dėl savo techninių apribojimų artimiausioje ateityje jie nebus savarankiški, o papildys žmonių ekspertus. Jie bus galingi įrankiai, padėsiantys gydytojui pateikti puikiai informuotus vertinimus ir diagnozes per tam tikrą iki šiol reikalingą laiko dalį, taip pat tinkamai dokumentuoti ir perduoti savo diagnozes pacientui bei visam sveikatos priežiūros paslaugų teikėjų tinklui, prijungtam per aparatą. mokymosi sistema.

Pramonė jau naudoja mašininį mokymąsi vaistų atradimui ir plėtrai, reklamuodama savo gebėjimą sumažinti išlaidas ir terminus, palyginti su tradicine paradigma. LLM dar labiau papildo turimą įrankių rinkinį ir suteikia puikias sistemas modeliuoti didelio masto biomolekulinius duomenis, įskaitant genomus, proteomas, funkcinius genominius ir epigenominius duomenis, vienos ląstelės duomenis ir kt. Artimiausioje ateityje fondų LLM neabejotinai prisijungs per visus šiuos duomenų būdus ir dideles asmenų grupes, kurių genominė, proteominė ir sveikatos informacija renkama. Tokie LLM padės sukurti perspektyvius vaistų taikinius, nustatyti galimas baltymų aktyvumo kišenes, susijusias su biologine funkcija ir liga, arba pasiūlyti kelius ir sudėtingesnes ląstelių funkcijas, kurias galima specifiniu būdu moduliuoti mažomis molekulėmis ar kitais vaistų būdais. Taip pat galime pasinaudoti LLM, kad nustatytų į vaistus reaguojančius ir nereaguojančius, remiantis genetiniu jautrumu, arba pakartotinai panaudoti vaistus esant kitoms ligos indikacijoms. Daugelis esamų novatoriškų dirbtiniu intelektu pagrįstų vaistų atradimų kompanijų neabejotinai jau pradeda galvoti ir vystytis šia kryptimi, todėl turėtume tikėtis, kad susiformuos papildomos įmonės, taip pat visuomenės pastangos, skirtos LLM diegti žmonių sveikatos ir narkotikų srityje. atradimas.

Dėkojame už išsamų interviu, skaitytojai, norintys sužinoti daugiau, turėtų apsilankyti Matytojas.

Unite.AI įkūrėjas ir narys „Forbes“ technologijų taryba, Antuanas yra a futuristas kuris aistringai domisi AI ir robotikos ateitimi.

Jis taip pat yra įkūrėjas Vertybiniai popieriai.io, svetainė, kurioje pagrindinis dėmesys skiriamas investicijoms į trikdančias technologijas.