стуб Др Серафим Батзоглоу, главни службеник за податке у компанији Сеер - Серија интервјуа - Уните.АИ
Повежите се са нама

Интервјуи

Др Серафим Батзоглоу, главни директор за податке у Сеер – Интервиев Сериес

mm

објављен

 on

Серафим Батзоглоу је главни службеник за податке у Сеер. Пре него што се придружио Сееру, Серафим је служио као главни директор за податке у Инситроу, предводећи машинско учење и науку о подацима у њиховом приступу откривању лекова. Пре Инситра, био је потпредседник примењене и рачунарске биологије у компанији Иллумина, водећи истраживање и технолошки развој вештачке интелигенције и молекуларних тестова како би се геномски подаци учинили лакшим за тумачење у људском здрављу.

Шта вас је на почетку привукло у области геномике?

Почео сам да се интересујем за област рачунарске биологије на почетку мог доктората из рачунарских наука на МИТ-у, када сам држао час на тему коју су предавали Бони Бергер, која је постала мој докторски саветник, и Дејвид Гифорд. Пројекат људског генома је убрзавао током мог доктората. Ериц Ландер, који је водио Геномски центар на МИТ-у, постао је мој докторски ко-саветник и укључио ме у пројекат. Мотивисан пројектом људског генома, радио сам на склапању целог генома и компаративној геномици људске и мишје ДНК.

Затим сам се преселио на Универзитет Станфорд као факултет на одсеку за рачунарске науке где сам провео 15 година, и имао сам привилегију да саветујем око 30 невероватно талентованих докторских студената и многе постдокторске истраживаче и студенте. Фокус мог тима била је примена алгоритама, машинског учења и прављења софтверских алата за анализу геномских и биомолекуларних података великих размера. Напустио сам Станфорд 2016. да бих водио тим за истраживање и развој технологије у Иллумини. Од тада уживам у вођењу тимова за истраживање и развој у индустрији. Сматрам да су тимски рад, пословни аспект и директнији утицај на друштво карактеристични за индустрију у односу на академску заједницу. Током своје каријере радио сам у иновативним компанијама: ДНАнекус, чији сам суоснивач 2009. године, Иллумина, инситро и сада Сеер. Рачунање и машинско учење су од суштинског значаја у технолошком ланцу у биотехнологији, од развоја технологије, преко аквизиције података, до интерпретације и превођења биолошких података до људског здравља.

Током последњих 20 година, секвенцирање људског генома постало је знатно јефтиније и брже. Ово је довело до драматичног раста тржишта секвенцирања генома и ширег усвајања у индустрији природних наука. Сада смо на прагу популацијских геномских, мулти-омских и фенотипских података довољне величине да значајно револуционишемо здравствену заштиту, укључујући превенцију, дијагнозу, лечење и откривање лекова. Све више можемо открити молекуларне основе болести за појединце путем компјутерске анализе геномских података, а пацијенти имају прилику да примају третмане који су персонализовани и циљани, посебно у областима рака и ретких генетских болести. Осим очигледне употребе у медицини, машинско учење заједно са геномским информацијама омогућава нам да стекнемо увид у друге области нашег живота, као што су наша генеалогија и исхрана. У наредних неколико година биће усвојена персонализована здравствена заштита заснована на подацима, прво за одабране групе људи, као што су пацијенти са ретким болестима, а све више и за ширу јавност.

Пре ваше тренутне функције били сте главни службеник за податке Инситро, водеће машинско учење и науку о подацима у свом приступу откривању лекова. Који су били неки од ваших кључних закључака из овог временског периода о томе како се машинско учење може користити за убрзање откривања лекова?

Конвенционална парадигма откривања и развоја лекова „покушај и грешка” је оптерећена неефикасношћу и изузетно дугим временским роковима. Да би један лек дошао на тржиште, може бити потребно више од милијарду долара и више од једне деценије. Укључујући машинско учење у ове напоре, можемо драматично смањити трошкове и временске оквире у неколико корака на путу. Један корак је идентификација мете, где се ген или скуп гена који модулирају фенотип болести или враћају болесно ћелијско стање у здравије стање могу идентификовати путем генетских и хемијских пертурбација великих размера и фенотипских очитавања као што су сликање и функционална геномика. . Други корак је идентификација и оптимизација једињења, где се мали молекул или други модалитет може дизајнирати предвиђањем у силикону заснованом на машинском учењу, као и ин витро скринингом, а штавише, жељена својства лека као што су растворљивост, пермеабилност, специфичност и не- токсичност се може оптимизовати. Најтежи, али и најважнији аспект је можда превођење на људе. Овде, избор правог модела – индукованих плурипотентних линија изведених из матичних ћелија наспрам примарних ћелијских линија пацијената и узорака ткива у односу на животињске моделе – за праву болест представља невероватно важан скуп компромиса који се на крају одражавају на способност резултујућих података плус машине учење да преведе пацијентима.

Сеер Био је пионир у новим начинима за декодирање тајни протеома за побољшање људског здравља, за читаоце који нису упознати са овим термином шта је протеом?

протеоме је променљив скуп протеина произведених или модификованих од стране организма током времена и као одговор на животну средину, исхрану и здравствено стање. Протеомика је проучавање протеома унутар датог типа ћелије или узорка ткива. Геном човека или других организама је статичан: са важним изузетком соматских мутација, геном при рођењу је геном који човек има цео живот, тачно копиран у свакој ћелији свог тела. Протеом је динамичан и мења се у временским распонима од година, дана, па чак и минута. Као такви, протеоми су много ближи фенотипу и на крају здравственом статусу него што су геноми, а самим тим и информативнији за праћење здравља и разумевање болести.

У компанији Сеер, развили смо нови начин приступа протеому који пружа дубљи увид у протеине и протеоформе у сложеним узорцима као што је плазма, што је веома приступачан узорак који је, нажалост, до данас представљао велики изазов за конвенционалну протеомику масене спектрометрије.

Шта је Сеер'с Протеограпх™ платформа и како нуди нови поглед на протеом?

Сеер-ова Протеограпх платформа користи библиотеку власничких пројектованих наночестица, покретаних једноставним, брзим и аутоматизованим током рада, омогућавајући дубоко и скалабилно испитивање протеома.

Платформа Протеограпх блиста у испитивању плазме и других сложених узорака који показују велики динамички опсег—многе редове величине разлике у обиљу различитих протеина у узорку—где конвенционалне методе масене спектрометрије нису у стању да открију део протеома са малом заступљеношћу. Сеерове наночестице су конструисане са подесивим физичкохемијским својствима која прикупљају протеине у динамичком опсегу на непристрасан начин. У типичним узорцима плазме, наша технологија омогућава детекцију 5к до 8к више протеина него када се обрађује чиста плазма без употребе Протеографа. Као резултат тога, од припреме узорка до инструментације до анализе података, наш пакет производа Протеограпх помаже научницима да пронађу потписе болести протеома који би иначе били неоткривени. Волимо да кажемо да у Сееру отварамо нову капију ка протеому.

Штавише, дозвољавамо научницима да лако изводе велике протеогеномске студије. Протеогеномика је комбиновање геномских података са протеомским подацима да би се идентификовале и квантификовале варијанте протеина, повезале геномске варијанте са нивоима обиља протеина и на крају повезале геном и протеом са фенотипом и болешћу, и започеле раздвајање узрочних и низводних генетских путева повезаних са болешћу. .

Можете ли да разговарате о некој технологији машинског учења која се тренутно користи у Сеер Био-у?

Сеер користи машинско учење у свим корацима од развоја технологије до низводне анализе података. Ти кораци укључују: (1) дизајн наших власничких наночестица, где нам машинско учење помаже да одредимо које физичко-хемијске особине и комбинације наночестица ће функционисати са специфичним линијама производа и тестовима; (2) детекцију и квантификацију пептида, протеина, варијанти и протеоформи из очитаних података произведених из МС инструмената; (3) низводно протеомске и протеогеномске анализе у великим популационим кохортама.

Прошле године смо објавио рад у Адванцед Материалс комбинујући методе протеомике, наноинжењеринг и машинско учење за побољшање нашег разумевања механизама формирања протеинске короне. Овај рад је открио нано-био интеракције и информише Сеера у стварању побољшаних будућих наночестица и производа.

Поред развоја наночестица, ми смо се развијали нови алгоритми за идентификацију варијанти пептида и пост-транслационих модификација (ПТМ-ови). Недавно смо развили метод за детекција протеинских квантификованих локуса особина (пКТЛ) који је отпоран на варијанте протеина, што је познато збуњујуће за протеомику засновану на афинитетима. Проширујемо овај рад да бисмо директно идентификовали ове пептиде из сирових спектра користећи методе де ново секвенцирања засноване на дубоком учењу како бисмо омогућили претрагу без надувавања величине спектралних библиотека.

Наш тим такође развија методе како би омогућио научницима без дубоке експертизе у машинском учењу да оптимално подесе и искористе моделе машинског учења у свом раду на откривању. Ово се постиже преко Сеер МЛ оквира заснованог на АутоМЛ алат, који омогућава ефикасно подешавање хиперпараметара преко Бајесове оптимизације.

Коначно, развијамо методе за смањење ефекта серије и повећање квантитативне тачности очитавања масених спецификација моделирањем измерених квантитативних вредности како бисмо максимизирали очекиване метрике као што је корелација вредности интензитета између пептида унутар групе протеина.

Халуцинације су чест проблем код ЛЛМ-а, која су нека од решења да се ово спречи или ублажи?

ЛЛМ су генеративне методе којима је дат велики корпус и обучени су да генеришу сличан текст. Они обухватају основна статистичка својства текста на којима су обучени, од једноставних локалних својстава као што је колико често се одређене комбинације речи (или токена) налазе заједно, до својстава вишег нивоа која опонашају разумевање контекста и значења.

Међутим, ЛЛМ нису првенствено обучени да буду исправни. Учење са појачањем уз помоћ људских повратних информација (РЛХФ) и друге технике помажу им да се обуче за пожељна својства укључујући исправност, али нису у потпуности успешне. На основу упита, ЛЛМ ће генерисати текст који највише личи на статистичка својства података о обуци. Често је и овај текст тачан. На пример, ако се пита „када је рођен Александар Велики“, тачан одговор је 356. пре нове ере (или пре нове ере), а ЛЛМ ће вероватно дати тај одговор јер се у подацима о обуци рођење Александра Великог често појављује као ова вредност. Међутим, на питање „када је рођена царица Регинела“, измишљени лик који није присутан у корпусу обуке, ЛЛМ ће вероватно халуцинирати и створити причу о њеном рођењу. Слично томе, када му се постави питање за које ЛЛМ можда неће пронаћи тачан одговор (било зато што тачан одговор не постоји, или за друге статистичке сврхе), вероватно ће халуцинирати и одговорити као да зна. Ово ствара халуцинације које су очигледан проблем за озбиљне примене, као што је „како се може лечити такав и такав рак“.

Још увек нема савршених решења за халуцинације. Они су ендемски за дизајн ЛЛМ. Једно делимично решење је правилно подстицање, као што је тражење од ЛЛМ-а да „пажљиво размисли, корак по корак,“ и тако даље. Ово повећава вероватноћу ЛЛМ-а да не измишљају приче. Софистициранији приступ који се развија је коришћење графова знања. Графикони знања пружају структуриране податке: ентитети у графу знања су повезани са другим ентитетима на унапред дефинисан, логичан начин. Конструисање графикона знања за дати домен је, наравно, изазован задатак, али изводљив комбинацијом аутоматизованих и статистичких метода и курирања. Са уграђеним графом знања, ЛЛМ могу унакрсно проверити изјаве које генеришу са структурираним скупом познатих чињеница и могу бити ограничени да не генеришу изјаву која је у супротности или није подржана графом знања.

Због фундаменталног проблема халуцинација, а вероватно и због недостатка довољних способности расуђивања и расуђивања, ЛЛМ су данас моћни за проналажење, повезивање и дестилацију информација, али не могу заменити људске стручњаке у озбиљним применама као што су медицинска дијагноза или правни савет. Ипак, они могу значајно побољшати ефикасност и способност људских стручњака у овим доменима.

Можете ли поделити своју визију будућности у којој биологију управљају подаци, а не хипотезе?

Традиционални приступ вођен хипотезама, који укључује истраживаче да проналазе обрасце, развијају хипотезе, изводе експерименте или студије да их тестирају, а затим пречишћавају теорије на основу података, постаје замењен новом парадигмом заснованом на моделирању заснованом на подацима.

У овој новој парадигми, истраживачи почињу са генерисањем података великих размера без хипотеза. Затим обучавају модел машинског учења као што је ЛЛМ са циљем тачне реконструкције оклудираних података, јаке регресије или перформанси класификације у низу задатака. Једном када модел машинског учења може тачно да предвиди податке и постигне верност упоредиву са сличношћу између експерименталних реплика, истраживачи могу испитати модел како би извукли увид у биолошки систем и уочили основне биолошке принципе.

ЛЛМ су се показали као посебно добри у моделирању биомолекуларних података и усмерени су да подстакну прелазак са хипотеза на биолошка открића вођена подацима. Ова промена ће постати све израженија у наредних 10 година и омогућити прецизно моделирање биомолекуларних система у грануларности која превазилази људске капацитете.

Какав је потенцијални утицај на дијагнозу болести и откривање лекова?

Верујем да ће ЛЛМ и генеративна АИ довести до значајних промена у индустрији наука о животу. Једна област која ће имати велике користи од ЛЛМ-а је клиничка дијагноза, посебно за ретке болести које је тешко дијагностиковати и подтипове рака. Постоји огромна количина свеобухватних информација о пацијентима које можемо искористити – од геномских профила, одговора на лечење, медицинске документације и породичне историје – да бисмо поставили тачну и правовремену дијагнозу. Ако можемо да пронађемо начин да сакупимо све ове податке тако да буду лако доступни, а не да их затворе појединачне здравствене организације, можемо драматично побољшати дијагностичку прецизност. Ово не значи да ће модели машинског учења, укључујући ЛЛМ, моћи аутономно да раде у дијагностици. Због својих техничких ограничења, у догледно време неће бити аутономни, већ ће појачати људске стручњаке. Они ће бити моћни алати који ће помоћи лекару да пружи врхунски информисане процене и дијагнозе у делићу времена потребног до данас, и да правилно документује и саопштава своје дијагнозе пацијенту, као и читавој мрежи здравствених радника повезаних преко машине систем учења.

Индустрија већ користи машинско учење за откривање и развој лекова, хвалећи своју способност да смањи трошкове и временске рокове у поређењу са традиционалном парадигмом. ЛЛМ даље додају доступној кутији алата и пружају одличне оквире за моделирање великих биомолекуларних података укључујући геноме, протеоме, функционалне геномске и епигеномске податке, податке о једној ћелији и још много тога. У догледној будућности, ЛЛМ фондације ће се несумњиво повезати у свим овим модалитетима података и међу великим групама појединаца чије се геномске, протеомске и здравствене информације прикупљају. Такви ЛЛМ ће помоћи у стварању обећавајућих циљева за лекове, идентификовати вероватне џепове активности протеина повезаних са биолошком функцијом и болешћу, или ће предложити путеве и сложеније ћелијске функције које се могу модулирати на специфичан начин малим молекулима или другим модалитетима лека. Такође можемо да користимо ЛЛМ да идентификујемо оне који реагују на лекове и оне који не реагују на лекове на основу генетске подложности, или да пренамемо лекове у другим индикацијама болести. Многе од постојећих иновативних компанија за откривање лекова заснованих на вештачкој интелигенцији несумњиво већ почињу да размишљају и развијају се у овом правцу, и треба очекивати да видимо формирање додатних компанија, као и јавне напоре усмерене на увођење ЛЛМ-а у људско здравље и лекове. откриће.

Хвала вам на детаљном интервјуу, читаоци који желе да сазнају више треба да посете Сеер.

Оснивачки партнер уните.АИ и члан Форбсов технолошки савет, Антоан је а футуристички који је страствен за будућност вештачке интелигенције и роботике.

Такође је оснивач Сецуритиес.ио, веб локација која се фокусира на улагање у дисруптивну технологију.