Y tế

Google DeepMind Ra Mắt AlphaGenome Để Giải Mã Chức Năng Gen Người

mm

Google DeepMind đã phát hành AlphaGenome vào ngày 28 tháng 1, một mô hình AI dự đoán cách các trình tự DNA được dịch thành các chức năng sinh học, xử lý tới một triệu cặp base tại một thời điểm và vượt trội so với các mô hình hiện có trong 25 trong 26 tiêu chuẩn dự đoán hiệu ứng biến thể.

Mô hình này, được xuất bản trên tạp chí Nature và được mô tả chi tiết trên blog của DeepMind, đại diện cho một bước tiến đáng kể trong lĩnh vực di truyền học tính toán. Trong khi các mô hình trước đây yêu cầu các hệ thống riêng biệt cho các nhiệm vụ dự đoán khác nhau, AlphaGenome xử lý mọi thứ từ biểu hiện gen đến khả năng tiếp cận nhiễm sắc thể trong một kiến trúc thống nhất.

“AlphaGenome có thể xem xét một khoảng dài DNA và dự đoán nơi các yếu tố điều chỉnh quan trọng và ảnh hưởng của chúng đến biểu hiện gen”, nhóm DeepMind đã viết trong thông báo của họ. Cửa sổ ngữ cảnh một triệu token của mô hình cho phép nó bắt được các tương tác dài hạn giữa các vùng DNA xa nhau ảnh hưởng đến cách các gen được bật và tắt.

Nó Hoạt Động Như Thế Nào

AlphaGenome kết hợp hai kiến trúc mạng nơ-ron: một mạng nơ-ron convolutional 1D kiểu Borzoi để xử lý các trình tự DNA thô và một kiến trúc U-Net được điều chỉnh từ phân đoạn hình ảnh. Cách tiếp cận lai này cho phép mô hình xử lý cả tính chất tuần tự của DNA và các mối quan hệ không gian phức tạp giữa các yếu tố điều chỉnh.

Dữ liệu đào tạo bao gồm khoảng 7.000 bản nhạc bộ gen từ các tập đoàn ENCODE và FANTOM – những nỗ lực hợp tác lớn đã lập danh mục các yếu tố chức năng trên toàn bộ bộ gen người. Mô hình học cách dự đoán tín hiệu từ các thí nghiệm đo lường biểu hiện gen, khả năng tiếp cận DNA, gắn kết protein và biến đổi nhiễm sắc thể.

Đối với các nhà nghiên cứu, giá trị thực tế nằm ở dự đoán hiệu ứng biến thể. Khi bộ gen của bệnh nhân chứa một đột biến, các bác sĩ lâm sàng cần biết liệu biến thể đó có quan trọng hay không. AlphaGenome có thể dự đoán cách một sự thay đổi nucleotide đơn ảnh hưởng đến toàn bộ cảnh quan điều chỉnh, có thể đánh dấu các biến thể gây bệnh mà các phương pháp hiện tại bỏ qua.

Mô hình đã đạt được kết quả mạnh mẽ trên các tiêu chuẩn kiểm tra khả năng dự đoán của nó về cách các biến thể di truyền ảnh hưởng đến biểu hiện gen và hoạt động của các yếu tố điều chỉnh. Trên các điểm định lượng trait loci (eQTL) – các biến thể được biết là ảnh hưởng đến mức biểu hiện gen – AlphaGenome đã匹配 hoặc vượt trội so với các mô hình chuyên dụng được đào tạo cụ thể cho các nhiệm vụ đó.

Sự Phát Hành Mở

DeepMind đã phát hành mã nguồn của AlphaGenome trên GitHub cho sử dụng phi thương mại, tiếp tục mô hình mà phòng thí nghiệm đã thực hiện trong việc làm cho các công cụ sinh học cơ bản có sẵn công khai. Kho lưu trữ bao gồm trọng lượng mô hình, mã suy luận và tài liệu để chạy dự đoán trên các trình tự tùy chỉnh.

Phát hành mở này theo mô hình đã được thiết lập bởi AlphaFold, công cụ dự đoán cấu trúc protein của DeepMind đã được sử dụng bởi hơn 3 triệu nhà nghiên cứu kể từ khi nó được phát hành vào năm 2021. AlphaGenome giải quyết một vấn đề bổ sung: trong khi AlphaFold dự đoán cấu trúc của protein, AlphaGenome dự đoán khi và nơi các gen sản xuất ra những protein đó.

CEO của Google DeepMind, Demis Hassabis, đã đặt sinh học là một lĩnh vực ứng dụng chính cho khả năng AI của phòng thí nghiệm. Công việc về gen học mở rộng tham vọng của DeepMind vượt ra ngoài AI đối thoại và mô hình ngôn ngữ powers các sản phẩm như Gemini, áp dụng các đổi mới kiến trúc tương tự cho các vấn đề khoa học.

Tại Sao Điều Này Quan Trọng

Bộ gen người chứa khoảng 3 tỷ cặp base, nhưng chỉ khoảng 1,5% mã hóa trực tiếp cho protein. 98,5% còn lại – trước đây được coi là “DNA rác” – chứa các yếu tố điều chỉnh kiểm soát khi, nơi và mức độ gen được biểu hiện. Các đột biến trong các vùng không mã hóa này gây ra bệnh, nhưng việc xác định các biến thể quan trọng đã trở nên cực kỳ khó khăn.

Các phương pháp truyền thống yêu cầu các thí nghiệm tốn kém và mất thời gian để kiểm tra từng biến thể. Các mô hình học máy như AlphaGenome có thể sàng lọc hàng nghìn biến thể tính toán, ưu tiên những biến thể nào xứng đáng được theo dõi thí nghiệm. Đối với chẩn đoán bệnh hiếm, nơi bệnh nhân thường mang các biến thể mới với hiệu ứng không rõ, khả năng này có thể đẩy nhanh quá trình từ giải mã đến chẩn đoán.

Khả năng của mô hình để xử lý các ngữ cảnh một triệu cặp base là đặc biệt quan trọng. Các yếu tố điều chỉnh gen có thể nằm hàng trăm nghìn cặp base cách xa các gen mà chúng kiểm soát, giao tiếp thông qua sự gấp khúc phức tạp của DNA. Các mô hình trước đây với cửa sổ ngữ cảnh ngắn hơn không thể bắt được các phụ thuộc dài hạn này.

AlphaGenome tham gia vào một hệ sinh thái ngày càng phát triển của các công cụ AI biến đổi nghiên cứu sinh học. Dự đoán cấu trúc protein, khám phá thuốc và bây giờ điều chỉnh gen là những vấn đề ngày càng có thể giải quyết được với học máy. Đối với cộng đồng nghiên cứu di truyền, sự sẵn có mở của các mô hình này dân chủ hóa việc tiếp cận các khả năng tính toán trước đây chỉ giới hạn ở các phòng thí nghiệm được tài trợ tốt.

Giới hạn của mô hình cũng rõ ràng từ phần trình bày của DeepMind. Mặc dù AlphaGenome excels trong việc dự đoán các phép đo thí nghiệm, việc dịch các dự đoán đó sang kết quả lâm sàng đòi hỏi phải xác nhận thêm. Khoảng cách giữa dự đoán khả năng tiếp cận nhiễm sắc thể và dự đoán nguy cơ bệnh vẫn còn đáng kể.

Đối với hiện tại, AlphaGenome phục vụ như một công cụ nghiên cứu – một công cụ có thể đẩy nhanh việc hiểu cách bộ gen hoạt động, ngay cả khi các ứng dụng lâm sàng vẫn còn vài năm nữa. 3.000 nhà khoa học trên 160 quốc gia đã sử dụng mô hình này cho thấy cộng đồng nghiên cứu thấy giá trị ngay lập tức trong những gì DeepMind đã xây dựng.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.