заглушки Д-р Серафим Бацоглу, директор по данным Seer - Серия интервью - Unite.AI
Свяжитесь с нами:

Интервью

Д-р Серафим Бацоглу, директор по данным Seer – серия интервью

mm

опубликованный

 on

Серафим Бацоглу — директор по данным компании провидец. До прихода в Seer Серафим занимал должность директора по данным в Insitro, занимаясь машинным обучением и наукой о данных в их подходе к открытию лекарств. До работы в Insitro он занимал должность вице-президента по прикладной и вычислительной биологии в Illumina, руководя исследованиями и разработками технологий искусственного интеллекта и молекулярных анализов, позволяющих сделать геномные данные более интерпретируемыми для здоровья человека.

Что изначально привлекло вас в области геномики?

Я заинтересовался областью вычислительной биологии в начале работы над докторской диссертацией по информатике в Массачусетском технологическом институте, когда посещал занятия по теме, которую преподавали Бонни Бергер, которая стала моим научным руководителем, и Дэвидом Гиффордом. Во время моей докторской диссертации работа над геномом человека набирала обороты. Эрик Лэндер, возглавлявший Центр генома в Массачусетском технологическом институте, стал моим научным руководителем и вовлек меня в проект. Вдохновленный проектом генома человека, я работал над сборкой целого генома и сравнительной геномикой ДНК человека и мыши.

Затем я перешел в Стэнфордский университет в качестве преподавателя на факультете компьютерных наук, где проработал 15 лет и имел честь консультировать около 30 невероятно талантливых аспирантов и многих постдокторантов и студентов. В центре внимания моей команды было применение алгоритмов, машинное обучение и создание программных инструментов для анализа крупномасштабных геномных и биомолекулярных данных. Я покинул Стэнфорд в 2016 году, чтобы возглавить группу исследований и разработок технологий в Illumina. С тех пор мне нравится руководить командами исследований и разработок в промышленности. Я считаю, что командная работа, деловой аспект и более прямое влияние на общество характерны для промышленности по сравнению с научными кругами. За свою карьеру я работал в инновационных компаниях: DNAnexus, соучредителем которой я стал в 2009 году, Illumina, insitro и теперь Seer. Вычисления и машинное обучение играют важную роль во всей технологической цепочке биотехнологий, от разработки технологий до сбора данных, интерпретации и перевода биологических данных в здоровье человека.

За последние 20 лет секвенирование человеческого генома стало значительно дешевле и быстрее. Это привело к резкому росту рынка секвенирования генома и более широкому внедрению в отрасли медико-биологических наук. Сейчас мы находимся на пороге получения популяционных геномных, мультиомных и фенотипических данных достаточного размера, чтобы совершить значительную революцию в здравоохранении, включая профилактику, диагностику, лечение и открытие лекарств. Мы можем все чаще обнаруживать молекулярные основы заболеваний у людей посредством компьютерного анализа геномных данных, а пациенты имеют возможность получать персонализированное и целенаправленное лечение, особенно в области рака и редких генетических заболеваний. Помимо очевидного использования в медицине, машинное обучение в сочетании с геномной информацией позволяет нам получить представление о других областях нашей жизни, таких как наша генеалогия и питание. В ближайшие несколько лет мы увидим внедрение персонализированного, основанного на данных здравоохранения, сначала для избранных групп людей, таких как пациенты с редкими заболеваниями, и все чаще для широкой общественности.

До вашей нынешней должности вы были директором по данным в компании Инситро, ведущие машинное обучение и науку о данных в своем подходе к открытию лекарств. Какие ключевые выводы вы сделали за этот период времени относительно того, как машинное обучение можно использовать для ускорения разработки лекарств?

Традиционная парадигма открытия и разработки лекарств, основанная на методе проб и ошибок, страдает неэффективностью и чрезвычайно длительными сроками. Чтобы один препарат вышел на рынок, может потребоваться более 1 миллиарда долларов и более десяти лет. Включив машинное обучение в эти усилия, мы можем значительно сократить затраты и сроки за несколько этапов. Одним из шагов является идентификация цели, при которой ген или набор генов, которые модулируют фенотип заболевания или возвращают состояние больных клеток в более здоровое состояние, могут быть идентифицированы посредством крупномасштабных генетических и химических возмущений, а также фенотипических данных, таких как визуализация и функциональная геномика. . Еще одним шагом является идентификация и оптимизация соединения, при которой небольшая молекула или другая модальность может быть разработана с помощью машинного обучения, прогнозирования in silico, а также скрининга in vitro, а также желаемых свойств лекарственного средства, таких как растворимость, проницаемость, специфичность и непроницаемость. токсичность можно оптимизировать. Самый сложный, но и самый важный аспект — это, пожалуй, перевод на людей. Здесь выбор правильной модели – индуцированных линий, полученных из плюрипотентных стволовых клеток, в сравнении с первичными линиями клеток пациента и образцами тканей в сравнении с моделями на животных – для правильного заболевания представляет собой невероятно важный набор компромиссов, которые в конечном итоге отражаются на способности полученных данных плюс машинного лечения. научиться переводить с пациентами.

Seer Bio разрабатывает новые способы расшифровки секретов протеома для улучшения здоровья человека. Для читателей, которые не знакомы с этим термином, что такое протеом?

Ассоциация протеом Это изменяющийся набор белков, вырабатываемых или модифицируемых организмом с течением времени и в ответ на окружающую среду, питание и состояние здоровья. Протеомика — это исследование протеома внутри данного типа клеток или образца ткани. Геном человека или других организмов статичен: за важным исключением соматических мутаций, геном при рождении — это геном, который есть у человека всю жизнь, точно скопированный в каждой клетке его тела. Протеом динамичен и меняется в течение нескольких лет, дней и даже минут. Таким образом, протеомы гораздо ближе к фенотипу и, в конечном итоге, к состоянию здоровья, чем геномы, и, следовательно, более информативны для мониторинга здоровья и понимания болезней.

В Seer мы разработали новый способ доступа к протеому, который обеспечивает более глубокое понимание белков и протеоформ в сложных образцах, таких как плазма, которая представляет собой легкодоступный образец, который, к сожалению, на сегодняшний день представляет собой серьезную проблему для традиционной масс-спектрометрической протеомики.

Что такое платформа Seer's Proteograph™ и как она предлагает новый взгляд на протеом?

Платформа Seer's Proteograph использует библиотеку запатентованных наночастиц, основанную на простом, быстром и автоматизированном рабочем процессе, позволяющем глубоко и масштабируемо исследовать протеом.

Платформа Proteograph отлично справляется с исследованием плазмы и других сложных образцов, которые демонстрируют большой динамический диапазон — разницу на многие порядки в количестве различных белков в образце — там, где традиционные методы масс-спектрометрии не могут обнаружить часть протеома с низким содержанием. Наночастицы Сира обладают настраиваемыми физико-химическими свойствами, которые беспристрастно собирают белки во всем динамическом диапазоне. В типичных образцах плазмы наша технология позволяет обнаружить в 5–8 раз больше белков, чем при обработке чистой плазмы без использования Протеографа. В результате наш набор продуктов Proteograph помогает ученым находить признаки протеомных заболеваний, которые в противном случае могли бы быть необнаружимыми, — от подготовки проб до оборудования и анализа данных. Нам нравится говорить, что в Seer мы открываем новый путь к протеому.

Более того, мы позволяем ученым легко проводить крупномасштабные протеогеномные исследования. Протеогеномика — это объединение геномных данных с протеомными данными для идентификации и количественной оценки вариантов белка, связи геномных вариантов с уровнями содержания белка и, в конечном итоге, связи генома и протеома с фенотипом и заболеванием, а также начала распутывания причинных и последующих генетических путей, связанных с заболеванием. .

Можете ли вы рассказать о некоторых технологиях машинного обучения, которые сейчас используются в Seer Bio?

Seer использует машинное обучение на всех этапах: от разработки технологий до последующего анализа данных. Эти шаги включают в себя: (1) разработку наших запатентованных наночастиц, где машинное обучение помогает нам определить, какие физико-химические свойства и комбинации наночастиц будут работать с конкретными линейками продуктов и анализами; (2) обнаружение и количественная оценка пептидов, белков, вариантов и протеоформ на основе данных считывания, полученных с помощью приборов MS; (3) последующие протеомные и протеогеномные анализы в крупномасштабных когортах населения.

В прошлом году мы опубликовал статью в Advanced Materials объединение методов протеомики, наноинженерии и машинного обучения для улучшения нашего понимания механизмов формирования белковой короны. Эта статья раскрыла нано-биологические взаимодействия и информирует Сира о создании улучшенных будущих наночастиц и продуктов.

Помимо разработки наночастиц, мы занимаемся разработкой новые алгоритмы для идентификации вариантов пептидов и посттрансляционных модификаций (ПТМ). Недавно мы разработали метод обнаружение локусов количественных признаков белка (pQTL), который устойчив к вариантам белка, что является известным препятствием для протеомики, основанной на аффинности. Мы расширяем эту работу, чтобы напрямую идентифицировать эти пептиды из необработанных спектров, используя методы секвенирования de novo на основе глубокого обучения, чтобы обеспечить поиск без увеличения размера спектральных библиотек.

Наша команда также разрабатывает методы, позволяющие ученым, не имеющим глубоких знаний в области машинного обучения, оптимально настраивать и использовать модели машинного обучения в своей исследовательской работе. Это достигается с помощью платформы Seer ML, основанной на AutoML инструмент, который позволяет эффективно настраивать гиперпараметры посредством байесовской оптимизации.

Наконец, мы разрабатываем методы уменьшения пакетного эффекта и повышения количественной точности считывания масс-спектров путем моделирования измеренных количественных значений, чтобы максимизировать ожидаемые показатели, такие как корреляция значений интенсивности между пептидами в группе белков.

Галлюцинации — распространенная проблема среди студентов LLM. Каковы некоторые решения, позволяющие предотвратить или смягчить это?

LLM — это генеративные методы, которым дан большой корпус и которые обучены генерировать похожий текст. Они фиксируют основные статистические свойства текста, на котором они обучаются: от простых локальных свойств, таких как частота встречаемости определенных комбинаций слов (или токенов) вместе, до свойств более высокого уровня, которые имитируют понимание контекста и значения.

Однако LLM в первую очередь не обучены быть правильными. Обучение с подкреплением с обратной связью с человеком (RLHF) и другие методы помогают развить у них желаемые свойства, включая правильность, но не являются полностью успешными. По запросу LLM сгенерирует текст, который наиболее точно соответствует статистическим свойствам обучающих данных. Часто этот текст тоже правильный. Например, если спросить «когда родился Александр Великий», правильный ответ — 356 г. до н.э. (или до н.э.), и LLM, скорее всего, даст такой ответ, потому что в данных обучения в качестве этого значения часто фигурирует рождение Александра Македонского. Однако, когда его спросят, «когда родилась императрица Регинелла», вымышленного персонажа, которого нет в учебном корпусе, у LLM, скорее всего, возникнут галлюцинации и создаст историю ее рождения. Точно так же, когда задают вопрос, на который LLM не может получить правильный ответ (либо потому, что правильный ответ не существует, либо для других статистических целей), он, скорее всего, будет галлюцинировать и ответить так, как будто он знает. Это создает галлюцинации, которые являются очевидной проблемой для серьезных приложений, например, «как можно лечить такой-то рак».

Идеального решения проблемы галлюцинаций пока не существует. Они присущи дизайну LLM. Одним из частичных решений являются правильные подсказки, например, попросить магистратуры «думать внимательно, шаг за шагом» и так далее. Это увеличивает вероятность того, что студенты LLM не будут придумывать истории. В настоящее время разрабатывается более сложный подход — использование графов знаний. Графы знаний предоставляют структурированные данные: объекты в графе знаний связаны с другими объектами заранее определенным логическим образом. Построение графа знаний для данной области, конечно, является сложной задачей, но выполнимой с помощью сочетания автоматизированных и статистических методов и курирования. Благодаря встроенному графу знаний LLM могут перекрестно проверять генерируемые ими утверждения со структурированным набором известных фактов, а также могут быть ограничены в том, чтобы не генерировать утверждения, которые противоречат или не поддерживаются графом знаний.

Из-за фундаментальной проблемы галлюцинаций и, возможно, из-за отсутствия у них достаточных способностей к рассуждению и суждению, LLM сегодня являются мощными инструментами для поиска, соединения и анализа информации, но не могут заменить людей-экспертов в серьезных приложениях, таких как медицинский диагноз или юридические консультации. Тем не менее, они могут значительно повысить эффективность и возможности экспертов в этих областях.

Можете ли вы поделиться своим видением будущего, в котором биология будет управляться данными, а не гипотезами?

Традиционный подход, основанный на гипотезах, который предполагает, что исследователи находят закономерности, разрабатывают гипотезы, проводят эксперименты или исследования для их проверки, а затем уточняют теории на основе данных, вытесняется новой парадигмой, основанной на моделировании на основе данных.

В этой новой парадигме исследователи начинают с безгипотезной, крупномасштабной генерации данных. Затем они обучают модель машинного обучения, такую ​​как LLM, с целью точной реконструкции скрытых данных, сильной регрессии или эффективности классификации в ряде последующих задач. Как только модель машинного обучения сможет точно предсказывать данные и достигнет точности, сравнимой со сходством между экспериментальными повторами, исследователи смогут опросить модель, чтобы получить представление о биологической системе и выявить основные биологические принципы.

LLM особенно хороши в моделировании биомолекулярных данных и призваны способствовать переходу от биологических открытий, основанных на гипотезах, к биологическим открытиям, основанным на данных. Этот сдвиг станет все более выраженным в течение следующих 10 лет и позволит точно моделировать биомолекулярные системы с такой степенью детализации, которая выходит далеко за пределы человеческих возможностей.

Каково потенциальное влияние на диагностику заболеваний и открытие лекарств?

Я верю, что LLM и генеративный искусственный интеллект приведут к значительным изменениям в отрасли наук о жизни. Одной из областей, в которой LLM принесет большую пользу, является клиническая диагностика, особенно редких, трудно диагностируемых заболеваний и подтипов рака. Мы можем использовать огромное количество комплексной информации о пациентах – от геномных профилей, результатов лечения, медицинских записей и семейного анамнеза – для постановки точного и своевременного диагноза. Если мы сможем найти способ собрать все эти данные так, чтобы они были легко доступны, а не разрознены по отдельным организациям здравоохранения, мы сможем значительно повысить точность диагностики. Это не означает, что модели машинного обучения, включая LLM, смогут работать автономно при диагностике. Из-за своих технических ограничений в обозримом будущем они не будут автономными, а будут дополнять людей-экспертов. Они станут мощными инструментами, которые помогут врачу провести высокоинформативную оценку и поставить диагноз за долю времени, необходимого на сегодняшний день, а также правильно документировать и сообщать свои диагнозы пациенту, а также всей сети поставщиков медицинских услуг, подключенных через машину. система обучения.

Промышленность уже использует машинное обучение для открытия и разработки лекарств, рекламируя свою способность сокращать затраты и сроки по сравнению с традиционной парадигмой. LLM дополняют доступный набор инструментов и предоставляют отличную основу для моделирования крупномасштабных биомолекулярных данных, включая геномы, протеомы, функциональные геномные и эпигеномные данные, данные об отдельных клетках и многое другое. В обозримом будущем базовые программы LLM, несомненно, будут охватывать все эти способы получения данных и большие группы людей, чья геномная, протеомная и медицинская информация собирается. Такие LLM помогут создать многообещающие мишени для лекарств, идентифицировать вероятные очаги активности белков, связанных с биологическими функциями и заболеваниями, или предложить пути и более сложные клеточные функции, которые можно модулировать определенным образом с помощью небольших молекул или других лекарственных средств. Мы также можем использовать LLM для выявления людей, реагирующих на лекарства, и тех, кто не отвечает на них, на основе генетической предрасположенности, или переназначать лекарства при других показаниях к лечению. Многие из существующих компаний, занимающихся разработкой инновационных лекарств на основе ИИ, несомненно, уже начинают думать и развиваться в этом направлении, и мы должны ожидать появления дополнительных компаний, а также общественных усилий, направленных на внедрение LLM в области здравоохранения и лекарств. открытие.

Спасибо за подробное интервью, читателям, желающим узнать больше, следует посетить провидец.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.