заглушки Доктор Серафім Бацоглу, директор із даних у Seer – серія інтерв’ю – Unite.AI
Зв'язатися з нами

інтерв'ю

Доктор Серафім Бацоглу, директор із даних Seer – Серія інтерв’ю

mm

опублікований

 on

Серафім Бацоглу є Chief Data Officer в Провидець. До того як приєднатися до Seer, Серафім обіймав посаду головного спеціаліста з обробки даних в Insitro, керуючи машинним навчанням і наукою про дані в підході до відкриття ліків. До роботи в Insitro він обіймав посаду віце-президента з прикладної та обчислювальної біології в Illumina, очолюючи дослідження та розробку технології штучного інтелекту та молекулярних аналізів для того, щоб зробити геномні дані більш придатними для інтерпретації здоров’я людини.

Що спочатку привабило вас у сфері геноміки?

Я зацікавився сферою обчислювальної біології на початку свого доктора філософії з інформатики в Массачусетському технологічному інституті, коли відвідав урок із теми, яку викладали Бонні Бергер, яка стала моїм докторським радником, і Девід Гіффорд. Під час моєї докторської дисертації проект геному людини набирав обертів. Ерік Лендер, який очолював Геномний центр Массачусетського технологічного інституту, став моїм докторським радником і залучив мене до проекту. Мотивований проектом геному людини, я працював над збіркою цілого генома та порівняльною геномікою ДНК людини та миші.

Потім я перейшов до Стенфордського університету як викладач кафедри комп’ютерних наук, де провів 15 років, і мав честь консультувати близько 30 неймовірно талановитих докторантів і багатьох дослідників і студентів, які займаються постдокторською діяльністю. Моя команда зосереджена на застосуванні алгоритмів, машинному навчанні та створенні програмних інструментів для аналізу великомасштабних геномних і біомолекулярних даних. Я залишив Стенфорд у 2016 році, щоб очолити групу досліджень і розвитку технологій в Illumina. З тих пір я очолюю команди дослідників і розробників у галузі. Я вважаю, що командна робота, бізнес-аспект і більш прямий вплив на суспільство є характерними для промисловості порівняно з наукою. Протягом своєї кар’єри я працював в інноваційних компаніях: DNAnexus, співзасновником якої я був у 2009 році, Illumina, insitro і тепер Seer. Обчислення та машинне навчання мають важливе значення в технологічному ланцюжку в біотехнологіях, від розробки технологій до збору даних, інтерпретації біологічних даних і їх перетворення на здоров’я людини.

За останні 20 років секвенування геному людини стало значно дешевшим і швидшим. Це призвело до різкого зростання ринку секвенування геному та ширшого впровадження в галузі наук про життя. Зараз ми знаходимося на порозі отримання популяційних геномних, мультиомічних і фенотипових даних достатнього обсягу, щоб суттєво змінити охорону здоров’я, включаючи профілактику, діагностику, лікування та відкриття ліків. Завдяки обчислювальному аналізу геномних даних ми все більше можемо виявляти молекулярні основи захворювань для окремих людей, а пацієнти мають шанс отримувати персоналізоване та цілеспрямоване лікування, особливо в області раку та рідкісних генетичних захворювань. Окрім очевидного використання в медицині, машинне навчання в поєднанні з геномною інформацією дозволяє нам отримати уявлення про інші сфери нашого життя, такі як генеалогія та харчування. У наступні кілька років персоналізована медична допомога, керована даними, запроваджуватиметься спочатку для окремих груп людей, таких як пацієнти з рідкісними захворюваннями, а дедалі більше для широкої громадськості.

До вашої нинішньої посади ви були директором з обробки даних у Insitro, лідер машинного навчання та науки про дані у своєму підході до відкриття ліків. Які ваші ключові висновки з цього періоду щодо того, як машинне навчання можна використовувати для прискорення відкриття ліків?

Традиційна парадигма відкриття та розробки ліків «проб і помилок» страждає від неефективності та надзвичайно тривалих часових рамок. Щоб один препарат потрапив на ринок, може знадобитися більше 1 мільярда доларів і більше десяти років. Включивши машинне навчання в ці зусилля, ми можемо значно скоротити витрати та часові рамки за кілька етапів. Одним з кроків є ідентифікація мішені, де ген або набір генів, які модулюють фенотип захворювання або повертають хворобливий клітинний стан до більш здорового стану, можна ідентифікувати за допомогою широкомасштабних генетичних і хімічних збурень, а також фенотипічних зчитувань, таких як візуалізація та функціональна геноміка . Іншим кроком є ​​ідентифікація та оптимізація сполуки, коли невелику молекулу чи іншу модальність можна сконструювати за допомогою прогнозування in silico, керованого машинним навчанням, а також скринінгу in vitro, а також бажані властивості препарату, такі як розчинність, проникність, специфічність і відсутність токсичність можна оптимізувати. Найскладнішим і найважливішим аспектом є, можливо, переклад на людей. Тут вибір правильної моделі — індукованих плюрипотентних ліній стовбурових клітин проти первинних клітинних ліній пацієнтів і зразків тканин проти тваринних моделей — для правильної хвороби створює неймовірно важливий набір компромісів, які в кінцевому підсумку відбиваються на здатності отриманих даних і машини навчитись перекладати пацієнтам.

Seer Bio відкриває нові способи розшифровки секретів протеома для покращення здоров’я людини. Для читачів, які не знайомі з цим терміном, що таке протеом?

Команда протеом це мінливий набір білків, які виробляються або змінюються організмом з часом і у відповідь на навколишнє середовище, харчування та стан здоров’я. Протеоміка - це дослідження протеома в межах даного типу клітини або зразка тканини. Геном людини чи інших організмів є статичним: за важливим винятком соматичних мутацій, геном при народженні є геномом, яким людина володіє протягом усього свого життя, точно скопійованим у кожній клітині свого тіла. Протеом динамічний і змінюється протягом років, днів і навіть хвилин. Таким чином, протеоми значно ближчі до фенотипу та, зрештою, до стану здоров’я, ніж геноми, і, отже, більш інформативні для моніторингу здоров’я та розуміння хвороби.

У Seer ми розробили новий спосіб доступу до протеома, який забезпечує глибше розуміння білків і протеоформ у складних зразках, таких як плазма, яка є дуже доступним зразком, який, на жаль, на сьогоднішній день становить серйозну проблему для традиційної протеоміки мас-спектрометрії.

Що таке платформа Seer's Proteograph™ і як вона пропонує новий погляд на протеом?

Платформа Seer's Proteograph використовує бібліотеку запатентованих інженерних наночастинок, яка підтримується простим, швидким і автоматизованим робочим процесом, що забезпечує глибоке та масштабоване опитування протеома.

Платформа Proteograph блищить у дослідженні плазми та інших складних зразків, які демонструють великий динамічний діапазон — різницю на багато порядків величини в кількості різних білків у зразку — де звичайні методи мас-спектрометрії не можуть виявити частину протеома з низьким вмістом. Наночастинки Seer розроблені з регульованими фізико-хімічними властивостями, які збирають білки в динамічному діапазоні неупереджено. У типових зразках плазми наша технологія дозволяє виявити в 5–8 разів більше білків, ніж під час обробки чистої плазми без використання протеографа. У результаті, від підготовки зразків до інструментарію та аналізу даних, наш набір продуктів Proteograph допомагає вченим знаходити сигнатури протеомних захворювань, які в іншому випадку неможливо було б виявити. Ми любимо казати, що в Seer ми відкриваємо новий шлях до протеому.

Крім того, ми дозволяємо вченим легко проводити широкомасштабні протеогеномні дослідження. Протеогеноміка — це об’єднання геномних даних із протеомними даними для ідентифікації та кількісної оцінки варіантів білка, зв’язування геномних варіантів із рівнями надлишку білка та, зрештою, зв’язування генома та протеома з фенотипом і захворюванням, а також для початку роз’єднання причинно-наслідкових і подальших генетичних шляхів, пов’язаних із захворюванням. .

Чи можете ви обговорити деякі технології машинного навчання, які зараз використовуються в Seer Bio?

Seer використовує машинне навчання на всіх етапах від розробки технологій до подальшого аналізу даних. Ці кроки включають: (1) розробку наших запатентованих наночастинок, де машинне навчання допомагає нам визначити, які фізико-хімічні властивості та комбінації наночастинок будуть працювати з конкретними лініями продуктів і аналізами; (2) виявлення та кількісне визначення пептидів, білків, варіантів і протеоформ на основі даних зчитування, отриманих з інструментів MS; (3) подальші протеомні та протеогеномні аналізи у великих популяційних когортах.

Минулого року ми опублікував статтю в Advanced Materials поєднання методів протеоміки, наноінженерії та машинного навчання для покращення нашого розуміння механізмів утворення білкової корони. Ця стаття розкриває нано-біологічні взаємодії та інформує Сіера про створення вдосконалених майбутніх наночастинок і продуктів.

Окрім розробки наночастинок, ми розвивалися нові алгоритми для ідентифікації варіантних пептидів і посттрансляційних модифікацій (PTM). Нещодавно ми розробили метод для виявлення локусів кількісних ознак білка (pQTLs), який стійкий до варіантів білків, що є відомим фактором спотворення протеоміки на основі спорідненості. Ми розширюємо цю роботу, щоб безпосередньо ідентифікувати ці пептиди з необроблених спектрів, використовуючи методи секвенування de novo на основі глибокого навчання, щоб забезпечити пошук без збільшення розміру спектральних бібліотек.

Наша команда також розробляє методи, які дозволять ученим, які не мають досвіду в машинному навчанні, оптимально налаштовувати та використовувати моделі машинного навчання у своїй дослідницькій роботі. Це досягається за допомогою фреймворку Seer ML на основі AutoML інструмент, який дозволяє ефективне налаштування гіперпараметрів за допомогою байєсівської оптимізації.

Нарешті, ми розробляємо методи зменшення пакетного ефекту та підвищення кількісної точності зчитування мас-специфікації шляхом моделювання виміряних кількісних значень для максимізації очікуваних показників, таких як кореляція значень інтенсивності між пептидами в межах білкової групи.

Галюцинації є поширеною проблемою для магістрів магістратури. Які існують рішення, щоб запобігти чи пом’якшити це?

LLM — це генеративні методи, які мають великий корпус і навчені створювати подібний текст. Вони фіксують базові статистичні властивості тексту, на якому вони навчаються, від простих локальних властивостей, наприклад, як часто певні комбінації слів (або токенів) зустрічаються разом, до властивостей вищого рівня, які імітують розуміння контексту та значення.

Однак магістри права не навчаються бути правильними. Навчання з підкріпленням із зворотним зв’язком людини (RLHF) та інші методи допомагають навчити їх бажаним властивостям, включаючи правильність, але не є повністю успішними. Отримавши підказку, LLM згенерує текст, який найбільше нагадує статистичні властивості навчальних даних. Часто цей текст також правильний. Наприклад, якщо запитати «коли народився Олександр Македонський», правильною відповіддю буде 356 р. до н. е. (або до н. е.), і магістр права, швидше за все, дасть таку відповідь, оскільки в навчальних даних народження Олександра Македонського часто з’являється як це значення. Однак, коли його запитують «коли народилася імператриця Регінелла», вигаданого персонажа, якого немає в навчальному корпусі, магістр права, швидше за все, галюцинує та створить історію її народження. Подібним чином, коли йому задають питання, на яке LLM може не отримати правильну відповідь (або тому, що правильної відповіді не існує, або для інших статистичних цілей), він, швидше за все, галюцинує та відповість так, ніби знає. Це створює галюцинації, які є очевидною проблемою для серйозних застосувань, наприклад, «як можна лікувати такий-то рак».

Ідеальних рішень проти галюцинацій поки немає. Вони є ендемічними для дизайну LLM. Одним із часткових рішень є правильна підказка, наприклад, попросити магістра «уважно подумати, крок за кроком» тощо. Це збільшує ймовірність того, що магістри не вигадують історії. Більш складний підхід, який розробляється, полягає у використанні графів знань. Графи знань надають структуровані дані: сутності в графі знань зв’язані з іншими сутностями заздалегідь визначеним логічним чином. Побудова графіка знань для певної області, звичайно, є складним завданням, але здійсненним за допомогою поєднання автоматизованих і статистичних методів і курації. Завдяки вбудованому графу знань магістри можуть перехресно перевіряти твердження, які вони генерують, зі структурованим набором відомих фактів і можуть бути обмежені, щоб не генерувати твердження, яке суперечить або не підтримується графом знань.

Через фундаментальну проблему галюцинацій і, мабуть, через відсутність у них достатньої здатності міркувати та судити, LLM сьогодні є потужними для отримання, підключення та дистиляції інформації, але не можуть замінити експертів-людей у ​​серйозних додатках, таких як медична діагностика чи юридичні поради. Тим не менш, вони можуть значно підвищити ефективність і можливості експертів у цих сферах.

Чи можете ви поділитися своїм баченням майбутнього, де біологією керуватимуть дані, а не гіпотези?

Традиційний підхід на основі гіпотез, який передбачає пошук дослідниками закономірностей, розробку гіпотез, проведення експериментів або досліджень для їх перевірки, а потім уточнення теорій на основі даних, витісняється новою парадигмою, заснованою на моделюванні на основі даних.

У цій новітній парадигмі дослідники починають із створення великомасштабних даних без гіпотез. Потім вони тренують модель машинного навчання, таку як LLM, з метою точної реконструкції закритих даних, сильної регресії або продуктивності класифікації в ряді подальших завдань. Щойно модель машинного навчання зможе точно передбачити дані та досягне точності, порівнянної зі схожістю між експериментальними репліками, дослідники зможуть досліджувати модель, щоб отримати уявлення про біологічну систему та розрізнити основні біологічні принципи.

LLMs виявилися особливо хорошими в моделюванні біомолекулярних даних і спрямовані на перехід від біологічних відкриттів, що керуються гіпотезами, до біологічних відкриттів, що керуються даними. Ця зміна ставатиме все більш помітною протягом наступних 10 років і дозволить точно моделювати біомолекулярні системи з деталізацією, що виходить далеко за межі людських можливостей.

Який потенційний вплив на діагностику захворювання та відкриття ліків?

Я вірю, що магістр права та генеративний штучний інтелект призведуть до значних змін у галузі наук про життя. Однією з сфер, яка принесе значну користь від LLM, є клінічна діагностика, зокрема рідкісних захворювань, які важко діагностувати, і підтипів раку. Існує величезна кількість вичерпної інформації про пацієнтів, до якої ми можемо підключитися – від геномних профілів, відповідей на лікування, медичних записів та сімейної історії – для точної та своєчасної діагностики. Якщо ми зможемо знайти спосіб зібрати всі ці дані таким чином, щоб вони були легкодоступними, а не закритими окремими організаціями охорони здоров’я, ми зможемо значно підвищити точність діагностики. Це не означає, що моделі машинного навчання, включаючи LLM, зможуть автономно працювати в діагностиці. Через свої технічні обмеження в доступному для огляду майбутньому вони не будуть автономними, натомість вони доповнюватимуть людей-експертів. Вони стануть потужними інструментами, які допоможуть лікарям надати надзвичайно обґрунтовану оцінку та діагностику за частку часу, необхідного на сьогоднішній день, а також належним чином задокументувати та повідомити свої діагнози пацієнту, а також усій мережі медичних працівників, підключених через машину. система навчання.

Індустрія вже використовує машинне навчання для відкриття та розробки ліків, рекламуючи його здатність скорочувати витрати та терміни порівняно з традиційною парадигмою. LLM додатково доповнюють доступний набір інструментів і забезпечують чудову структуру для моделювання великомасштабних біомолекулярних даних, включаючи геноми, протеоми, функціональні геномні та епігеномні дані, одноклітинні дані тощо. У доступному для огляду майбутньому базові магістратури, безсумнівно, об’єднають усі ці модальності даних і великі когорти осіб, чия геномна, протеомна та інформація про здоров’я збирається. Такі LLM допоможуть створити багатообіцяючі мішені для ліків, виявити ймовірні осередки активності білків, пов’язаних з біологічними функціями та захворюваннями, або запропонувати шляхи та більш складні клітинні функції, які можна модулювати певним чином за допомогою малих молекул або інших модальностей ліків. Ми також можемо використовувати LLMs, щоб ідентифікувати тих, хто реагує на ліки, і тих, хто не реагує, на основі генетичної сприйнятливості або перепрофілювати ліки при інших захворюваннях. Безсумнівно, багато з існуючих інноваційних компаній із розробки ліків на основі штучного інтелекту вже починають думати та розвиватися в цьому напрямку, і ми повинні очікувати створення додаткових компаній, а також громадських зусиль, спрямованих на розгортання LLMs у галузі охорони здоров’я людини та ліків. відкриття.

Дякую за детальне інтерв’ю, читачі, які хочуть дізнатися більше, повинні відвідати Провидець.

Партнер-засновник unite.AI і член Технологічна рада Forbes, Антуан - це а футурист який захоплений майбутнім ШІ та робототехніки.

Він також є засновником Securities.io, веб-сайт, який зосереджується на інвестиціях у революційні технології.