stub Dr Serafim Batzoglou, Seer'i andmeametnik – intervjuusari – Unite.AI
Ühenda meile

intervjuud

Dr Serafim Batzoglou, Seer – Intervjuude sarja andmeametnik

mm

avaldatud

 on

Serafim Batzoglou on ettevõtte andmeametnik Nägija. Enne Seeriga liitumist töötas Serafim Insitro andmejuhina, juhtides masinõpet ja andmeteadust nende lähenemisviisides ravimite avastamisele. Enne Insitrot töötas ta Illumina rakendus- ja arvutusbioloogia osakonna asepresidentina, juhtides tehisintellekti ja molekulaarsete analüüside uurimis- ja tehnoloogiaarendust, et muuta genoomilised andmed inimeste tervises paremini tõlgendatavaks.

Mis teid alguses genoomika valdkonna juures köitis?

Huvi arvutusbioloogia vastu tekkis minus MIT-is arvutiteaduse doktoriõppe alguses, kui võtsin kursuse teemal, mida õpetasid Bonnie Berger, kellest sai minu doktorikraadi nõustaja, ja David Gifford. Inimgenoomi projekt sai doktorikraadi ajal hoogu juurde. Eric Lander, kes juhtis MIT-i genoomikeskust, sai minu doktorikraadi kaasnõustajaks ja kaasas mind projekti. Inimese genoomi projektist ajendatuna töötasin kogu genoomi koostamise ning inimese ja hiire DNA võrdleva genoomika kallal.

Seejärel kolisin Stanfordi ülikooli arvutiteaduse osakonna õppejõuna, kus veetsin 15 aastat, ja mul oli au nõustada umbes 30 uskumatult andekat doktoranti ning paljusid järeldoktorante ja bakalaureuseõppe üliõpilasi. Minu meeskonna fookuses on olnud algoritmide, masinõppe ja tarkvaratööriistade rakendamine suuremahuliste genoomiliste ja biomolekulaarsete andmete analüüsimiseks. Lahkusin Stanfordist 2016. aastal, et juhtida Illumina uurimis- ja tehnoloogiaarendusmeeskonda. Sellest ajast peale on mulle meeldinud tööstuses teadus- ja arendusmeeskondade juhtimine. Leian, et meeskonnatöö, äriline aspekt ja otsesem mõju ühiskonnale on tööstusele iseloomulikud võrreldes akadeemiliste ringkondadega. Töötasin oma karjääri jooksul uuenduslikes ettevõtetes: DNAnexus, mille asutasin 2009. aastal, Illumina, insitro ja nüüd Seer. Arvutamine ja masinõpe on olulised kogu biotehnoloogia tehnoloogiaahelas alates tehnoloogia arendamisest kuni andmete hankimiseni kuni bioloogiliste andmete tõlgendamiseni ja inimeste tervisesse ülekandmiseni.

Viimase 20 aasta jooksul on inimese genoomi järjestamine muutunud tunduvalt odavamaks ja kiiremaks. See tõi kaasa genoomijärjestuse turu dramaatilise kasvu ja laiema kasutuselevõtu bioteaduste tööstuses. Oleme praegu selle tipus, et meil on piisava suurusega populatsiooni genoomilised, multi-oomilised ja fenotüübilised andmed, et muuta tervishoius, sealhulgas ennetus-, diagnoosi-, ravi- ja ravimite avastamisel olulisel määral murranguliseks. Genoomiandmete arvutusanalüüsi abil saame üha enam avastada üksikisikute haiguste molekulaarseid aluseid ning patsientidel on võimalus saada isikupärastatud ja sihipärast ravi, eriti vähi ja haruldaste geneetiliste haiguste valdkondades. Lisaks ilmselgele kasutamisele meditsiinis võimaldab masinõpe koos genoomse teabega saada ülevaadet meie elu muudest valdkondadest, nagu meie sugupuu ja toitumine. Järgmise paari aasta jooksul võetakse kasutusele isikupärastatud andmepõhine tervishoid, esmalt teatud inimrühmade jaoks, nagu haruldaste haigustega patsiendid, ja üha enam laiemale avalikkusele.

Enne oma praegust rolli olite ettevõtte andmeametnik Insitro, mis on masinõppe ja andmeteaduse juhtivad lähenemisviisid ravimite avastamisele. Millised olid teie peamised väljavõtted sellest perioodist seoses sellega, kuidas masinõpet saab ravimite avastamise kiirendamiseks kasutada?

Tavapärane ravimite avastamise ja arendamise katse-eksituse paradigma on vaevatud ebatõhususe ja äärmiselt pikkade ajakavadega. Ühe ravimi turule jõudmiseks võib kuluda kuni 1 miljard dollarit ja üle kümne aasta. Kaasades nendesse jõupingutustesse masinõppe, saame kulusid ja ajakavasid mitme sammuga oluliselt vähendada. Üks samm on sihtmärgi tuvastamine, kus geeni või geenide komplekti, mis moduleerivad haiguse fenotüüpi või taastavad haiguse rakulise seisundi tervislikumaks, saab tuvastada ulatuslike geneetiliste ja keemiliste häirete ning fenotüübi näitude (nt pildistamine ja funktsionaalne genoomika) abil. . Teine samm on ühendi identifitseerimine ja optimeerimine, kus väikese molekuli või muu modaalsuse saab kujundada masinõppepõhise in silico ennustamise ja in vitro sõeluuringu abil ning peale selle ravimi soovitud omadused, nagu lahustuvus, läbilaskvus, spetsiifilisus ja mittevastavus. toksilisust saab optimeerida. Kõige raskem ja ka kõige olulisem aspekt on ehk tõlkimine inimestele. Siin on õige mudeli valik – indutseeritud pluripotentsed tüvirakkudest pärinevad liinid versus esmased patsiendi rakuliinid ja koeproovid versus loommudelid – õige haiguse jaoks uskumatult olulised kompromissid, mis lõppkokkuvõttes peegeldavad saadud andmete ja masina võimet. patsientidele tõlkimise õppimine.

Seer Bio on teerajaja uute viiside dekodeerimiseks proteoomi saladused, et parandada inimeste tervist, lugejatele, kes ei tunne seda terminit, mis on proteoom?

. proteoom on muutuv valkude kogum, mida organism toodab või muudab aja jooksul ja vastusena keskkonnale, toitumisele ja tervislikule seisundile. Proteoomika on proteoomi uurimine antud rakutüübis või koeproovis. Inimese või teiste organismide genoom on staatiline: välja arvatud somaatilised mutatsioonid, on genoom sünnihetkel see genoom, millel on kogu oma eluiga, kopeerituna täpselt igas keharakus. Proteoom on dünaamiline ja muutub aastate, päevade ja isegi minutite jooksul. Sellisena on proteoomid fenotüübile ja lõpuks tervislikule seisundile tunduvalt lähemal kui genoomid ning seega informatiivsemad tervise jälgimiseks ja haiguste mõistmiseks.

Oleme Seeris välja töötanud uue viisi proteoomile juurdepääsuks, mis annab sügavama ülevaate valkudest ja proteovormidest keerulistes proovides, näiteks plasmas, mis on väga ligipääsetav proov, mis kahjuks on tänaseks esitanud tavapärase massispektromeetria proteoomika jaoks suure väljakutse.

Mis on Seer's Proteograph™ platvorm ja kuidas see proteoomile uut vaadet pakub?

Seer's Proteographi platvorm kasutab patenteeritud konstrueeritud nanoosakeste raamatukogu, mis on varustatud lihtsa, kiire ja automatiseeritud töövooga, võimaldades proteoomi sügavat ja skaleeritavat ülekuulamist.

Proteographi platvorm paistab silma plasma ja muude keerukate proovide ülekuulamisel, millel on suur dünaamiline ulatus - mitmete suurusjärkude erinevus proovis olevate erinevate valkude arvukuses -, kus tavapärased massispektromeetria meetodid ei suuda tuvastada proteoomi vähese arvukuse osa. Seeri nanoosakesed on konstrueeritud häälestatavate füüsikalis-keemiliste omadustega, mis koguvad erapooletult valke üle dünaamilise vahemiku. Tavalistes plasmaproovides võimaldab meie tehnoloogia tuvastada 5–8 korda rohkem valke kui puhta plasma töötlemisel ilma Proteographi kasutamata. Selle tulemusel aitab meie Proteograph Product Suite teadlastel leida proteoomihaiguste allkirju, mis muidu võiksid olla tuvastamatud, alates proovi ettevalmistamisest kuni mõõteriistade ja andmete analüüsini. Meile meeldib öelda, et Seeris avame proteoomile uue värava.

Lisaks võimaldame teadlastel hõlpsasti läbi viia suuremahulisi proteogenoomilisi uuringuid. Proteogenoomika on genoomiliste andmete kombineerimine proteoomiliste andmetega, et tuvastada ja kvantifitseerida valgu variante, seostada genoomseid variante valgu arvukuse tasemetega ning lõpuks siduda genoom ja proteoom fenotüübi ja haigusega ning alustada haigusega seotud põhjuslike ja allavoolu geneetiliste radade lahutamist. .

Kas saate arutada mõnda masinõppetehnoloogiat, mida praegu Seer Bios kasutatakse?

Seer kasutab masinõpet kõigil etappidel alates tehnoloogia arendamisest kuni andmeanalüüsini. Need sammud hõlmavad järgmist: (1) meie patenteeritud nanoosakeste kujundamine, kus masinõpe aitab meil kindlaks teha, millised nanoosakeste füüsikalis-keemilised omadused ja kombinatsioonid töötavad konkreetsete tootesarjade ja analüüsidega; (2) peptiidide, valkude, variantide ja proteovormide tuvastamine ja kvantifitseerimine MS seadmete abil saadud näiduandmete põhjal; (3) allavoolu proteoomilised ja proteogenoomilised analüüsid suuremahulistes populatsioonirühmades.

Eelmisel aastal me avaldas artikli Advanced Materialsis kombineerides proteoomika meetodeid, nanotehnoloogiat ja masinõpet, et parandada meie arusaamist valgu korona moodustumise mehhanismidest. See artikkel paljastas nano-bio interaktsioonid ja teavitab Seerit täiustatud tulevaste nanoosakeste ja toodete loomisel.

Lisaks nanoosakeste arendamisele oleme arenenud uudsed algoritmid peptiidide variantide ja translatsioonijärgsete modifikatsioonide tuvastamiseks (PTM-id). Hiljuti töötasime välja meetodi valgu kvantifitseeritud tunnus lookuste tuvastamine (pQTL-id), mis on valguvariantide suhtes vastupidav, mis on afiinsuspõhise proteoomika tuntud segaja. Laiendame seda tööd, et identifitseerida need peptiidid otse toorspektrist, kasutades sügaval õppimisel põhinevaid de novo sekveneerimismeetodeid, et võimaldada otsingut ilma spektraalraamatukogude suurust suurendamata.

Meie meeskond töötab välja ka meetodeid, mis võimaldavad teadlastel, kellel pole sügavaid masinõppeteadmisi, masinõppemudeleid oma avastustöös optimaalselt häälestada ja kasutada. See saavutatakse Seer ML raamistiku kaudu, mis põhineb AutoML tööriist, mis võimaldab tõhusat hüperparameetrite häälestamist Bayesi optimeerimise kaudu.

Lõpuks töötame välja meetodid partiiefekti vähendamiseks ja massispektri näidu kvantitatiivse täpsuse suurendamiseks, modelleerides mõõdetud kvantitatiivseid väärtusi, et maksimeerida eeldatavaid mõõdikuid, nagu intensiivsuse väärtuste korrelatsioon valgurühma peptiidide vahel.

Hallutsinatsioonid on LLM-ide puhul tavaline probleem. Millised on mõned lahendused selle vältimiseks või leevendamiseks?

LLM-id on generatiivsed meetodid, millele on antud suur korpus ja mida õpetatakse genereerima sarnast teksti. Need kajastavad teksti aluseks olevaid statistilisi omadusi, mille järgi neid koolitatakse, alates lihtsatest kohalikest omadustest, nagu näiteks see, kui sageli teatud sõnade kombinatsioone (või märke) koos leitakse, kuni kõrgema taseme omadusteni, mis jäljendavad konteksti ja tähenduse mõistmist.

LLM-e ei õpetata siiski peamiselt korrektseks. Inimtagasiside (RLHF) õppimine ja muud tehnikad aitavad neil treenida soovitud omadusi, sealhulgas õigsust, kuid need ei ole täielikult edukad. Viipa korral genereerivad LLM-id teksti, mis sarnaneb kõige rohkem koolitusandmete statistiliste omadustega. Sageli on see tekst ka õige. Näiteks kui küsida „millal Aleksander Suur sündis”, on õige vastus 356 eKr (või eKr) ja LLM annab tõenäoliselt selle vastuse, kuna treeningandmetes on Aleksander Suure sünd sageli selle väärtusena. Kui aga temalt küsitakse „millal sündis keisrinna Reginella”, väljamõeldud tegelane, keda koolituskorpuses ei esine, hakkab LLM tõenäoliselt hallutsinatsioone ja loob oma sünniloo. Samamoodi, kui esitatakse küsimus, millele LLM ei pruugi leida õiget vastust (kas õige vastuse puudumise tõttu või muudel statistilistel eesmärkidel), tekitab see tõenäoliselt hallutsinatsioone ja vastab nii, nagu teaks. See tekitab hallutsinatsioone, mis on tõsiste rakenduste puhul ilmselgeks probleemiks, näiteks "kuidas saab sellist ja sellist vähki ravida".

Hallutsinatsioonide jaoks pole veel ideaalseid lahendusi. Need on LLM-i disaini jaoks endeemilised. Üks osaline lahendus on õige õhutamine, näiteks paluda LLM-il "mõelda hoolikalt, samm-sammult" ja nii edasi. See suurendab tõenäosust, et LLM-id ei loo lugusid. Arendamisel on keerukam lähenemisviis teadmiste graafikute kasutamine. Teadmiste graafikud pakuvad struktureeritud andmeid: teadmiste graafiku olemid on eelnevalt määratletud loogilisel viisil ühendatud teiste olemitega. Teatud domeeni jaoks teadmiste graafiku koostamine on loomulikult keeruline ülesanne, kuid see on teostatav automatiseeritud ja statistiliste meetodite ning kureerimise kombinatsiooniga. Sisseehitatud teadmiste graafiku abil saavad LLM-id võrrelda nende loodud väiteid teadaolevate faktide struktureeritud kogumiga ja neid saab piirata, et nad ei genereeriks väidet, mis on teadmiste graafikuga vastuolus või mida see ei toeta.

Hallutsinatsioonide põhiprobleemi tõttu ja väidetavalt piisava arutlus- ja otsustusvõime puudumise tõttu on LLM-id tänapäeval võimsad teabe otsimiseks, ühendamiseks ja destilleerimiseks, kuid ei saa asendada inimeksperte tõsistes rakendustes, nagu meditsiiniline diagnostika või juriidiline nõustamine. Sellegipoolest võivad need nendes valdkondades inimeste ekspertide tõhusust ja suutlikkust tohutult suurendada.

Kas saate jagada oma nägemust tulevikust, kus bioloogiat juhivad pigem andmed kui hüpoteesid?

Traditsiooniline hüpoteesil põhinev lähenemine, mis hõlmab teadlaste mustrite leidmist, hüpoteeside väljatöötamist, katsete või uuringute läbiviimist nende kontrollimiseks ja seejärel andmete põhjal teooriate täpsustamist, on väljatõrjumas uue andmepõhisel modelleerimisel põhineva paradigmaga.

Selles arenevas paradigmas alustavad teadlased hüpoteesidevaba ja suuremahulise andmete genereerimisega. Seejärel koolitavad nad masinõppe mudelit (nt LLM), mille eesmärk on ummistunud andmete täpne rekonstrueerimine, tugev regressioon või klassifitseerimise jõudlus mitmes järgmises etapis. Kui masinõppemudel suudab andmeid täpselt ennustada ja saavutab eksperimentaalsete korduste sarnasusega võrreldava täpsuse, saavad teadlased mudelit üle kuulata, et saada ülevaade bioloogilisest süsteemist ja eristada selle aluseks olevaid bioloogilisi põhimõtteid.

LLM-id on osutunud eriti headeks biomolekulaarsete andmete modelleerimisel ja nende eesmärk on soodustada üleminekut hüpoteesidelt andmetepõhisele bioloogilisele avastusele. See nihe muutub järgmise 10 aasta jooksul üha selgemaks ja võimaldab biomolekulaarsete süsteemide täpset modelleerimist sellisel detailsusel, mis ületab palju inimvõimet.

Milline on potentsiaalne mõju haiguste diagnoosimisele ja ravimite avastamisele?

Usun, et LLM ja generatiivne AI toovad kaasa olulisi muutusi bioteaduste tööstuses. Üks valdkond, mis LLM-idest palju kasu saab, on kliiniline diagnoos, eriti haruldaste, raskesti diagnoositavate haiguste ja vähi alatüüpide puhul. Meil on tohutul hulgal kõikehõlmavat patsienditeavet – alates genoomprofiilidest, ravivastustest, haiguslugudest ja perekonna ajaloost –, et viia täpne ja õigeaegne diagnoosimine. Kui leiame viisi, kuidas koguda kõik need andmed nii, et need oleksid hõlpsasti juurdepääsetavad ja üksikud tervishoiuorganisatsioonid neid ei vaikiks, saame märkimisväärselt parandada diagnostilist täpsust. See ei tähenda, et masinõppemudelid, sealhulgas LLM-id, saaksid diagnoosimisel iseseisvalt töötada. Oma tehniliste piirangute tõttu ei ole need lähitulevikus autonoomsed, vaid suurendavad inimeksperte. Need on võimsad tööriistad, mis aitavad arstil anda suurepäraselt informeeritud hinnanguid ja diagnoose murdosa praeguseks vajalikust ajast ning oma diagnoosid korralikult dokumenteerida ja edastada nii patsiendile kui ka kogu masina kaudu ühendatud tervishoiuteenuste osutajate võrgustikule. õppesüsteem.

Tööstus kasutab juba masinõpet ravimite avastamiseks ja arendamiseks, reklaamides oma võimet vähendada kulusid ja ajakavasid võrreldes traditsioonilise paradigmaga. LLM-id täiendavad olemasolevat tööriistakasti ja pakuvad suurepäraseid raamistikke suuremahuliste biomolekulaarsete andmete, sealhulgas genoomide, proteoomide, funktsionaalsete genoomiliste ja epigenoomiliste andmete, üherakuliste andmete ja muu modelleerimiseks. Lähitulevikus ühendavad sihtasutuse LLM-id kahtlemata kõigi nende andmeviiside ja suurte inimeste rühmade vahel, kelle genoomilist, proteoomilist ja terviseteavet kogutakse. Sellised LLM-id aitavad luua paljutõotavaid ravimi sihtmärke, tuvastavad bioloogilise funktsiooni ja haigusega seotud valkude aktiivsuse tõenäolisi taskuid või pakuvad välja radu ja keerukamaid rakufunktsioone, mida saab konkreetsel viisil moduleerida väikeste molekulide või muude ravimite modaalsustega. Samuti saame kasutada LLM-e, et tuvastada geneetilisel vastuvõtlikkusel põhinevaid ravimeid ja mittereageerijaid või kasutada ravimeid muude haigusnähtude korral. Paljud olemasolevad uuenduslikud tehisintellektil põhinevad ravimite avastamise ettevõtted on kahtlemata juba hakanud selles suunas mõtlema ja arenema ning me peaksime nägema täiendavate ettevõtete teket ja avalikke jõupingutusi, mille eesmärk on LLM-ide kasutuselevõtt inimeste tervise ja ravimite valdkonnas. avastus.

Täname üksikasjaliku intervjuu eest, lugejad, kes soovivad rohkem teada saada, peaksid külastama Nägija.

Unite.AI asutajapartner ja liige Forbesi tehnoloogianõukogu, Antoine on a futurist kes on kirglik tehisintellekti ja robootika tuleviku vastu.

Ta on ka asutaja Securities.io, veebisait, mis keskendub häirivasse tehnoloogiasse investeerimisele.