Интервью

Леланд Хайман, ведущий ученый по данным в Sherlock Biosciences – Серия интервью

mm

Леланд Хайман является ведущим ученым по данным в Sherlock Biosciences. Он является опытным компьютерным ученым и исследователем с опытом работы в области машинного обучения и молекулярной диагностики.

Sherlock Biosciences – это биотехнологическая компания, базирующаяся в Кембридже, штат Массачусетс, которая разрабатывает диагностические тесты с использованием CRISPR. Они стремятся революционизировать молекулярную диагностику с помощью лучших, быстрее и доступных тестов.

Что изначально привлекло вас к информатике?

Я начал программировать в очень молодом возрасте, но в основном был заинтересован в создании видеоигр с друзьями. Мой интерес вырос в других приложениях информатики во время колледжа и аспирантуры, особенно с учетом всех новаторских работ по машинному обучению, которые происходили в начале 2010-х годов. Всё это поле казалось такой интересной новой границей, которая могла бы напрямую повлиять на научные исследования и нашу повседневную жизнь – я не мог не быть увлеченным этим.

Вы также получили степень доктора философии по клеточной и молекулярной биологии, когда вы впервые осознали, что эти две области пересекутся?

Я начал заниматься этим типом пересекающейся работы с информатикой и биологией на ранней стадии аспирантуры. Моя лаборатория была сосредоточена на решении проблем инженерии белков посредством сотрудничества между биохимиками, компьютерными учеными и всеми, кто находится между ними. Я быстро понял, что машинное обучение может дать ценные представления о биологических системах и сделать экспериментирование намного проще. С другой стороны, я также приобрел оценку ценности биологической интуиции при построении моделей машинного обучения. На мой взгляд, правильная постановка проблемы является решающим элементом в машинном обучении. Это почему я считаю, что совместные усилия в разных областях могут иметь глубокое влияние.

С 2022 года вы работаете в Sherlock Biosciences, можете ли вы поделиться некоторыми подробностями о том, что включает в себя ваша роль?

В настоящее время я руковожу вычислительной группой в Sherlock Biosciences. Наша группа отвечает за проектирование компонентов, которые входят в наши диагностические тесты, взаимодействие с экспериментаторами, которые тестируют эти конструкции в мокрой лаборатории, и создание новых вычислительных возможностей для улучшения конструкций. Помимо координации этих мероприятий, я работаю над частями машинного обучения нашей базы кода, экспериментируя с новыми архитектурами моделей и новыми способами симуляции физики ДНК и РНК, участвующих в наших тестах.

Машинное обучение является ядром Sherlock Biosciences, можете ли вы описать тип данных и объем данных, которые собираются, и как ML затем анализирует эти данные?

Во время разработки теста мы тестируем десятки или сотни кандидатов на каждый новый патоген. Хотя большинство этих кандидатов не пройдут в коммерческий тест, мы видим в них возможность учиться на наших ошибках. В этих экспериментах мы измеряем два ключевых показателя: чувствительность и скорость. Наши модели принимают последовательности ДНК и РНК в каждом тесте в качестве входных данных, а затем учатся предсказывать чувствительность и скорость теста.

Как ML предсказывает, какие молекулярные диагностические компоненты будут работать с наибольшей скоростью и точностью?

Когда мы думаем о том, как человек учится, есть два основных стратегии. С одной стороны, человек может научиться выполнять задачу через чистый пробный метод. Они могли бы повторять задачу, и после многих неудач они в конечном итоге узнали бы правила задачи сами. Эта стратегия была довольно популярна до интернета. Однако мы могли бы предоставить этому человеку учителя, который расскажет ему правила задачи сразу. Ученик с учителем мог бы учиться намного быстрее, чем с помощью пробного метода, но только если у него есть хороший учитель, который полностью понимает задачу.

Наш подход к обучению моделей машинного обучения находится между этими двумя стратегиями. Хотя у нас нет идеального “учителя” для наших моделей машинного обучения, мы можем начать с некоторым знанием физики ДНК и РНК в наших тестах. Это помогает им учиться делать лучшие прогнозы с меньшим количеством данных. Для этого мы запускаем несколько биофизических симуляций на последовательностях ДНК и РНК наших тестов. Затем мы подаем результаты в модель и просим ее предсказать скорость и чувствительность теста. Мы повторяем этот процесс для всех экспериментов, которые мы провели в лаборатории, и модель показывает разницу между ее прогнозами и тем, что действительно произошло. Через достаточно повторений она в конечном итоге учится, как физика ДНК и РНК связана со скоростью и чувствительностью каждого теста.

Какие еще способы использования алгоритмов искусственного интеллекта в Sherlock Biosciences?

Мы использовали алгоритмы машинного обучения для решения широкого спектра проблем. Некоторые примеры, которые приходят на ум, связаны с маркетинговыми исследованиями и анализом изображений. Для маркетинговых исследований мы смогли обучить модели, которые учатся о разных типах клиентов и о том, сколько людей могут иметь неудовлетворенную потребность в тестировании заболеваний. Мы также построили модели для анализа изображений полосок латерального потока (типа теста, обычно используемого в тестах для домашнего использования COVID), и автоматически предсказать, присутствует ли положительная полоса. Хотя это может показаться тривиальной задачей для человека, я могу сказать из личного опыта, что это невероятно удобная альтернатива ручному аннотированию тысяч изображений.

Какие есть проблемы за построением моделей ML, которые работают рука об руку с передовыми бионаучными технологиями, такими как CRISPR?

Доступность данных является основной проблемой при применении моделей машинного обучения к любой бионаучной технологии. CRISPR и технологии, основанные на ДНК или РНК, сталкиваются с особой проблемой, главным образом из-за значительно меньших структурных наборов данных, доступных для нуклеиновых кислот по сравнению с белками. Это почему мы видели огромные достижения в области машинного обучения для белков в последние годы (с AlphaFold2 и другими), но достижения в области машинного обучения для ДНК и РНК все еще отстают.

Каково ваше видение будущего интеграции ИИ с CRISPR и бионаукой?

Мы наблюдаем огромный бум ИИ в области инженерии белков и открытия лекарств прямо сейчас, и я ожидаю, что это будет продолжать ускорять развитие в фармацевтической промышленности. Я бы хотел увидеть то же самое с CRISPR и другими технологиями, основанными на ДНК и РНК, в ближайшие годы. Это может быть невероятно влиятельным в диагностике, медицине человека и синтетической биологии. Мы уже увидели выгоды от вычислительных инструментов в нашей разработке диагностических и технологий CRISPR здесь, в Sherlock, и я надеюсь, что этот тип работы будет стимулировать “снежный эффект”, чтобы продвинуть эту область вперед.

Спасибо за отличный интервью, читатели, которые хотят узнать больше, должны посетить Sherlock Biosciences.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлеченно рассказывает о потенциале разрушительных технологий и ИИ.

Как футуролог, он посвящает себя изучению того, как эти инновации будут формировать наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.