ν—¬μŠ€μΌ€μ–΄

ꡬ글 λ””ν”„λ§ˆμΈλ“œ, 인간 μœ μ „μ²΄ κΈ°λŠ₯ 해독을 μœ„ν•œ μ•ŒνŒŒκ²Œλ†ˆ 곡개

mm

구글 디프마인드가 1월 28일 알파게놈(AlphaGenome)을 출시했다. 이는 DNA 서열이 생물학적 기능으로 번역되는 방법을 예측하는 인공지능 모델로, 한 번에 최대 1백만 개의 염기쌍을 처리하며 26개의 변이 효과 예측 벤치마크 중 25개에서 기존 모델을 능가한다.

네이처에 발표되고 디프마인드 블로그에서 자세히 설명된 이 모델은 계산유전학에서 상당한 발전을 나타낸다. 이전 모델은 서로 다른 예측 작업을 위해 별도의 시스템이 필요했지만, 알파게놈은 유전자 발현에서 염색질 접근성까지 단일 통합 아키텍처에서 모든 것을 처리한다.

“알파게놈은 긴 DNA 구간을 살펴보고 중요한 조절 요소가 어디에 있는지及其 하류 효과를 유전자 발현에 미치는 영향을 예측할 수 있다”고 디프마인드 팀은 발표에서 말했다. 모델의 백만 토큰 컨텍스트 창은遠隔 DNA 영역 간의 장거리 상호작용을 포착할 수 있어 유전자가 켜지거나 꺼지는 방식을影响한다.

작동 원리

알파게놈은 두 가지 신경망 아키텍처를 결합한다. 원시 DNA 서열을 처리하는 보르조이 스타일 1D 컨볼루셔널 네트워크와 이미지 분할에서 유래한 U-Net 아키텍처이다.这种 혼합 접근법으로 모델은 DNA의 순차적 특성과 조절 요소 간의 복잡한 空間적 관계를 모두 처리할 수 있다.

훈련 데이터는 약 7,000개의 유전체 트랙으로 구성되며, 이는 ENCODE와 FANTOM 컨소시엄의 대규모 협력 노력으로人类 유전체 전반에 걸친 기능적 요소를 카탈로그화한 결과이다. 모델은 유전자 발현, DNA 접근성, 단백질 결합 및 염색질 수정을 측정하는 실험적 측정의 신호를 예측하도록 학습한다.

연구자들에게 실제 가치는 변이 효과 예측에 있다. 환자의 유전체에 돌연변이가 포함된 경우, 임상가는 해당 변이가 중요하다는 것을 알아야 한다. 알파게놈은 단일 뉴클레오티드 변경이 전체 조절 랜드스케이프에 미치는 영향을 예측할 수 있으며, 현재 방법으로는 놓치기 쉬운 질병 유발 변이를 потен적으로 식별할 수 있다.

모델은 유전자 발현 및 조절 요소 활성에 대한 유전적 변이의 영향을 예측하는 능력을 테스트하는 벤치마크에서 강한 결과를 달성했다. 유전자 발현 수준에 영향을 미치는 것으로 알려진 표현형 양적 특성 좌위(eQTLs)에서 알파게놈은 해당 작업을 위해 특별히 훈련된 모델과 일치하거나 능가했다.

오픈 소스 가용성

디프마인드가 알파게놈의 소스 코드를 깃허브에 비상업적 사용을 위해 공개했다. 이는 기본 바이오학 도구를 공개적으로 사용할 수 있게 하는 연구소의 패턴을 계속한다. 저장소에는 모델 가중치, 추론 코드 및 사용자 정의 시퀀스에 대한 예측을 실행하는 문서가 포함된다.

이 오픈 릴리스는 2021年に 출시된 알파폴드(AlphaFold)의 모델을 따른다. 알파폴드는 단백질 구조 예측 도구로, 출시 이후 300만 명 이상의 연구자가 사용했다. 알파게놈은 보완적인 문제를 해결한다. 알파폴드가 단백질이 어떻게 보이는지 예측하는 반면, 알파게놈은 언제 그리고 어디서 유전자가 해당 단백질을 생성하는지 예측한다.

구글 디프마인드의 CEO인 데미스 하사비스는 생물학을 연구소의 AI 능력의 주요 적용 도메인으로 위치시켰다. 유전학 연구는 대화형 AI 및 언어 모델과 같은 제품을 구동하는 것보다 더 나아간다. 이는 과학적 문제에 유사한 아키텍처 혁신을 적용하는 것이다.

왜 이것이 중요한가

인간 유전체는 약 30억 개의 염기쌍을 포함하지만, 그 중 약 1.5%만 단백질을 직접 암호화한다. 나머지 98.5%는 “쓰레기 DNA”로 간주되어 왔지만, 실제로는 유전자 발현을 제어하는 조절 요소를 포함한다. 이러한 비암호화 영역의 돌연변이는 질병을 유발하지만, 어느 변이가 중요한지 식별하는 것은 매우 어려웠다.

전통적인 방법은 개별 변이를 테스트하는 데 비싼 및 시간이 걸리는 실험을 필요로 한다. 알파게놈과 같은 기계 학습 모델은 수천 개의 변이를 컴퓨터로 스크린할 수 있으며, 어느 것들이 실험적 후속 조치에 값을 받을지 우선순위를 정할 수 있다. 희귀병 진단의 경우, 환자는 종종 알려지지 않은 효과를 가진 새로운 변이를 携帯하기 때문에, 이 능력은 시퀀싱에서 진단까지의 경로를 가속화할 수 있다.

모델이 백만 개의 염기쌍 컨텍스트를 처리할 수 있는 능력은 특히 중요하다. 유전자 조절 요소는 유전자가 조절하는 유전자에서 수십만 개의 염기쌍 떨어진 곳에 위치할 수 있으며, 복잡한 3D DNA 접힘을 통해 통신한다. 이전 모델은 이러한 장거리 의존성을 포착할 수 있는 더 짧은 컨텍스트 창을 가지고 있었다.

알파게놈은 생물학 연구를 변환하는 인공지능 도구의 증가하는 생태계에 합류한다. 단백질 구조 예측, 약물 발견 및 이제 유전자 조절은 기계 학습으로 점점 더 다루기 쉬운 문제가 된다. 유전학 연구 커뮤니티에서는 이러한 모델의 공개 가용성이 계산 능력에 대한 접근을 민주화한다. 이전에는 잘 자금을 갖춘 연구소만이 이러한 능력을 가지고 있었다.

모델의 한계도 명확하다. 디프마인드의 발표에서 알 수 있듯이, 알파게놈은 실험적 측정을 예측하는 데 탁월하지만, 이러한 예측을 임상 결과로 번역하는 것은 추가적인 검증을 필요로 한다. 염색질 접근성을 예측하고 질병 위험을 예측하는 간격은 여전히 상당하다.

현재, 알파게놈은 연구 도구로 작용한다. 유전체가 어떻게 작동하는지에 대한 이해를 가속화할 수 있지만, 임상적 적용은 여전히 몇 년 뒤에 남아 있다. 이미 모델을 사용하는 160개 국가의 3,000명의 과학자들은 디프마인드가 구축한 것이 즉시 가치가 있다고 본다.

Alex McFarland은 인곡 μ§€λŠ₯의 μ΅œμ‹  κ°œλ°œμ„ νƒκ΅¬ν•˜λŠ” AI μ €λ„λ¦¬μŠ€νŠΈμ΄μž μž‘κ°€μž…λ‹ˆλ‹€. κ·ΈλŠ” μ „ μ„Έκ³„μ˜ μˆ˜λ§Žμ€ AI μŠ€νƒ€νŠΈμ—…κ³Ό μΆœνŒλ¬Όλ“€κ³Ό ν˜‘λ ₯ν–ˆμŠ΅λ‹ˆλ‹€.