부본 Leland Hyman, Sherlock Biosciences의 수석 데이터 과학자 - 인터뷰 시리즈 - Unite.AI
Rescale 미팅 예약

인터뷰

Leland Hyman, Sherlock Biosciences의 수석 데이터 과학자 - 인터뷰 시리즈

mm

게재

 on

Leland Hyman은 수석 데이터 과학자입니다. 셜록 생명 과학. 그는 기계 학습 및 분자 진단에 대한 배경 지식을 갖춘 숙련된 컴퓨터 과학자이자 연구원입니다.

Sherlock Biosciences는 매사추세츠 주 케임브리지에 본사를 둔 생명공학 회사로 CRISPR를 사용하여 진단 테스트를 개발하고 있습니다. 그들은 더 좋고, 더 빠르고, 저렴한 테스트를 통해 분자 진단을 혁신하는 것을 목표로 합니다.

처음에 컴퓨터 과학에 끌린 이유는 무엇입니까?

저는 아주 어린 나이에 프로그래밍을 시작했지만 주로 친구들과 비디오 게임을 만드는 데 관심이 있었습니다. 대학 및 대학원 시절 특히 2010년대 초에 일어난 모든 획기적인 기계 학습 작업과 함께 다른 컴퓨터 공학 응용 분야에 대한 관심이 커졌습니다. 전체 분야가 과학 연구와 우리 일상 생활에 직접적인 영향을 미칠 수 있는 매우 흥미롭고 새로운 개척지처럼 보였습니다. 저는 그것에 매료될 수밖에 없었습니다.

당신은 또한 박사 학위를 취득했습니다. 세포 및 분자 생물학에서 두 분야가 교차한다는 것을 언제 처음 깨달았습니까?

나는 대학원 초기부터 컴퓨터 과학과 생물학을 교차적으로 다루는 이런 유형의 작업을 시작했습니다. 내 연구실에서는 핵심 생화학자, 컴퓨터 과학자 및 그 사이의 모든 사람 간의 협력을 통해 단백질 공학 문제를 해결하는 데 중점을 두었습니다. 저는 기계 학습이 생물학적 시스템에 대한 귀중한 통찰력을 제공하고 실험을 훨씬 쉽게 만들 수 있다는 것을 금방 깨달았습니다. 반대로, 머신러닝 모델을 구축할 때 생물학적 직관의 가치에 대한 감사도 얻었습니다. 내 생각에는 문제를 정확하게 프레이밍하는 것이 머신러닝의 중요한 요소입니다. 그렇기 때문에 다양한 분야의 협업이 큰 영향을 미칠 수 있다고 믿습니다.

2022년부터 Sherlock Biosciences에서 근무하고 계십니다. 귀하의 역할에 대해 자세히 알려주실 수 있나요?

저는 현재 Sherlock Biosciences에서 컴퓨터 팀을 이끌고 있습니다. 우리 그룹은 진단 분석에 사용되는 구성 요소를 설계하고, 실험실에서 이러한 설계를 테스트하는 실험자들과 인터페이스하고, 설계를 개선하기 위한 새로운 계산 기능을 구축하는 일을 담당합니다. 이러한 활동을 조정하는 것 외에도 저는 코드베이스의 기계 학습 부분을 작업하면서 새로운 모델 아키텍처와 분석에 관련된 DNA 및 RNA 물리학을 시뮬레이션하는 새로운 방법을 실험합니다.

머신러닝은 Sherlock Biosciences의 핵심입니다. 수집되는 데이터 유형과 데이터의 양, 그리고 ML이 해당 데이터를 구문 분석하는 방법을 설명해 주실 수 있나요?

분석법 개발 과정에서 우리는 각각의 새로운 병원체에 대해 수십에서 수백 가지의 후보 분석법을 테스트합니다. 이러한 후보자 중 대다수는 상용 테스트에 참여하지 못하지만 우리는 이를 실수로부터 배울 수 있는 기회로 봅니다. 이 실험에서는 감도와 속도라는 두 가지 주요 사항을 측정합니다. 우리 모델은 각 분석의 DNA 및 RNA 서열을 입력으로 사용하고 분석의 민감도와 속도를 예측하는 방법을 학습합니다.

ML은 어떤 분자 진단 구성 요소가 가장 빠른 속도와 정확도로 작동할지 어떻게 예측합니까?

인간이 학습하는 방법을 생각해 보면 크게 두 가지 전략이 있습니다. 한편으로 사람은 순수한 시행착오를 통해 작업을 수행하는 방법을 배울 수 있습니다. 그들은 작업을 반복할 수 있었고, 많은 실패 후에 결국에는 스스로 작업의 규칙을 알아냈습니다. 이 전략은 인터넷 이전에도 꽤 인기가 있었습니다. 그러나 우리는 이 사람에게 즉시 과제의 규칙을 알려줄 교사를 제공할 수 있습니다. 교사와 함께하는 학생은 시행착오 접근 방식보다 훨씬 빠르게 배울 수 있지만, 이는 과제를 완전히 이해하는 훌륭한 교사가 있는 경우에만 가능합니다.

기계 학습 모델 훈련에 대한 우리의 접근 방식은 이 두 전략 사이의 중간에 있습니다. 기계 학습 모델을 위한 완벽한 "교사"는 없지만 분석에서 DNA 및 RNA 가닥의 물리학에 대한 지식을 바탕으로 시작할 수 있습니다. 이는 더 적은 데이터로 더 나은 예측을 하는 방법을 배우는 데 도움이 됩니다. 이를 위해 분석의 DNA 및 RNA 서열에 대해 여러 가지 생물물리학적 시뮬레이션을 실행합니다. 그런 다음 결과를 모델에 입력하고 분석 속도와 민감도를 예측하도록 요청합니다. 우리는 실험실에서 수행한 모든 실험에 대해 이 프로세스를 반복하며, 모델은 예측과 실제로 발생한 일의 차이를 보여줍니다. 충분한 반복을 통해 결국 DNA 및 RNA 물리학이 각 분석의 속도 및 감도와 어떻게 관련되는지 학습하게 됩니다.

Sherlock Biosciences에서 AI 알고리즘을 사용하는 다른 방법은 무엇입니까?

우리는 다양한 문제를 해결하기 위해 기계 학습 알고리즘을 사용해 왔습니다. 마음속에 떠오르는 몇 가지 예는 시장 조사 및 이미지 분석과 관련이 있습니다. 시장 조사를 위해 우리는 다양한 유형의 고객과 얼마나 많은 사람들이 질병 테스트에 대한 충족되지 않은 요구를 갖고 있는지 학습하는 모델을 훈련할 수 있었습니다. 또한 측면 흐름 스트립(일반 코로나 테스트에 일반적으로 사용되는 테스트 유형)의 사진을 분석하고 양성 밴드가 있는지 자동으로 예측하는 모델을 구축했습니다. 이것이 인간에게는 사소한 작업처럼 보이지만, 수천 장의 사진에 수동으로 주석을 다는 것보다 믿을 수 없을 정도로 편리한 대안이라고 직접 말할 수 있습니다.

CRISPR와 같은 최첨단 생명과학 기술과 함께 작동하는 ML 모델을 구축하는 데 있어 어려운 점은 무엇입니까?

데이터 가용성은 모든 생명과학 기술에 기계 학습 모델을 적용할 때 가장 중요한 과제입니다. CRISPR와 DNA 또는 RNA 기반 기술은 주로 단백질에 비해 핵산에 사용할 수 있는 구조적 데이터 세트가 상당히 작기 때문에 독특한 과제에 직면해 있습니다. 이것이 바로 우리가 최근 몇 년 동안(AlphaFold2 등을 통해) 엄청난 단백질 ML 발전을 보았지만 DNA와 RNA ML 발전은 여전히 ​​뒤처져 있는 이유입니다.

AI가 CRISPR 및 생명과학과 통합되는 방식에 대한 미래의 비전은 무엇입니까?

우리는 현재 단백질 공학과 신약 발견 분야에서 엄청난 AI 붐을 목격하고 있으며, 이것이 제약 산업의 발전을 계속 가속화할 것으로 기대합니다. 나는 앞으로 CRISPR와 기타 DNA 및 RNA 기반 기술에서도 같은 일이 일어나는 것을 보고 싶습니다. 이는 진단, 인간 의학 및 합성 생물학에 엄청난 영향을 미칠 수 있습니다. 우리는 여기 Sherlock에서 진단 및 CRISPR 기술 개발에서 컴퓨팅 도구의 이점을 이미 확인했으며 이러한 유형의 작업이 "눈덩이" 효과를 장려하여 해당 분야를 발전시킬 수 있기를 바랍니다.

훌륭한 인터뷰 감사합니다. 자세한 내용을 알고 싶은 독자는 방문하세요. 셜록 생명 과학.

unite.AI의 창립 파트너이자 포브스 기술 위원회, 앙투안은 미래파 예술가 AI와 로봇공학의 미래에 열정을 갖고 있는 사람입니다.

그는 또한 증권.io, 파괴적인 기술에 대한 투자에 초점을 맞춘 웹사이트입니다.