인공지능
AI 연구자, 게놈 규칙 발견을 위한 설명 가능한 신경망 개발

연구자 팀은 최근에 설명 가능한 신경망을 생성하여 생물학자가 인간 게놈의 코드를 지배하는 신비한 규칙을 발견하도록 도움을 주기 위해 노력했습니다. 연구 팀은 단백질-DNA 상호작용 지도에 신경망을 훈련시켜 AI가 특정 DNA 시퀀스가 특정 유전자를 어떻게 조절하는지 발견하도록 했습니다. 연구자들은 또한 모델을 설명 가능하게 만들어서 모델의 결론을 분석하고 시퀀스 모티프가 유전자를 어떻게 조절하는지 결정할 수 있었습니다.
생물학에서 큰 미스터리 중 하나는 게놈의 규제 코드입니다. DNA는 4개의 뉴클레오티드 기초 – 아데닌, 구아닌, 티민, 시토신 – 로 구성되어 있지만, 이러한 기초 쌍이 어떻게 활동을 조절하는지 알려지지 않았습니다. 4개의 뉴클레오티드 기초는 단백질을构築하는 지침을 암호화하지만, 또한 유전자가 어디서 어떻게 발현되는지(유기체에서 단백질을 만드는 방법)를 제어합니다. 특정 기초의 조합과 배열은 규제 코드의 섹션을 생성하여 DNA의 세그먼트에 결합하며, 이러한 조합이 무엇인지 알려지지 않았습니다.
컴퓨터 과학자와 생물학자의 상호학문적인 팀은 이 미스터리를 해결하기 위해 설명 가능한 신경망을 생성하기로 했습니다. 연구 팀은 “베이스 페어 네트워크” 또는 “BPNet”이라고 불리는 신경망을 생성했습니다. BPNet이 예측을 생성하는 데 사용하는 모델은 규제 코드를 식별하기 위해 해석될 수 있습니다. 이것은 전사 인자라고 불리는 단백질이 DNA 시퀀스와 어떻게 결합하는지 예측함으로써 달성되었습니다.
연구자들은 전사 인자와 DNA가 어떻게 결합되는지 결정하기 위해 다양한 실험을 수행하고 포괄적인 컴퓨터 모델링을 수행하여 개별 뉴클레오티드 기초 수준까지 자세한 지도を作成했습니다. 자세한 전사 인자-DNA 표현은 연구자들이 임의의 DNA 시퀀스 패턴과 규제 코드로 작동하는 규칙을 해석할 수 있는 도구를 생성하도록 허용했습니다.
스탠퍼드 대학교의 Julia Zeitlinger 박사, 생물학자이자 컴퓨터 연구자는 설명 가능한 신경망에서 수집된 결과가 기존의 실험 결과와 일치하지만, 또한 게놈의 규제 코드에 대한 놀라운 통찰력을 포함하고 있다고 설명했습니다. 예를 들어, AI 모델을 사용하여 연구 팀은 전사 인자라고 불리는 Nanog가 작동하는 방식에 영향을 미치는 규칙을 발견할 수 있었습니다. DNA 이중 나선의 같은 쪽에 여러 개의 Nanog 모티프가 존재할 때,它们는 협력적으로 DNA에 결합합니다. Zeitlinger는 ScienceDaily를 통해 설명했습니다.
“이러한 모티프의 주기성이 때때로 규제 코드에 존재한다는 실험 증거가 오랫동안 있었지만, 정확한 상황은 불분명했으며, Nanog는 의심받지 않았습니다. 이러한 패턴을 갖는 Nanog를 발견하고, 추가 세부 정보를 확인하는 것은, 우리는 이 패턴을 특정적으로 검색하지 않았기 때문에 놀라웠습니다.”
최근의 연구 논문은 최근 연구 논문은 DNA를 분석하기 위해 AI를 사용하는 첫 번째 연구는 아니지만, 게놈에서 유전자 조절에 대한 규칙을 발견하기 위해 AI의 “블랙 박스”를 열어보는 첫 번째 연구일 것입니다. 신경망은 데이터 내에서 패턴을 찾는 데 탁월하지만, 모델에서 이러한 통찰력을 추출하는 것은 어렵습니다. 모델이 예측에 중요한 기능을 분석하는 방법을 생성함으로써, 연구자들은 더 정교한 모델을 훈련시킬 수 있으며, 이는 새로운 발견으로 이어집니다.
BPNet의 아키텍처는 이미지에서 얼굴을 인식하는 데 사용되는 네트워크와 유사합니다. 컴퓨터 비전 시스템이 이미지에서 얼굴을 인식할 때, 네트워크는 먼저 가장자리를 감지한 다음 이러한 가장자리를 함께 결합합니다. 차이점은 BPNet이 DNA 시퀀스에서 학습하며, 시퀀스 모티프를 감지하고, 이러한 모티프를 더 높은 수준의 규칙으로 결합하여 베이스-해상도에서 데이터 결합을 예측할 수 있습니다.
모델이 높은 정확도 임계값에 도달한 후, 모델이 학습한 패턴은 원래 입력 시퀀스로 추적되어 시퀀스 모티프를 공개합니다. 마지막으로, 모델은 체계적인 DNA 시퀀스 쿼리로 제공되어, 연구자들이 시퀀스 모티프가 어떻게 결합되어 작동하는지 이해할 수 있습니다. Zeitlinger에 따르면, 모델은 전통적인 실험 방식으로 테스트할 수 있는 것보다 훨씬 더 많은 시퀀스를 예측할 수 있습니다. 또한 예측된 결과의 예외를 예측하여 연구자들은 모델을 검증할 때 가장 정보를 제공하는 실험을 식별할 수 있습니다.










