Kết nối với chúng tôi

Giải mã những bí mật ẩn giấu của bộ gen bằng AI: Đột phá của AlphaGenome

Trí tuệ nhân tạo

Giải mã những bí mật ẩn giấu của bộ gen bằng AI: Đột phá của AlphaGenome

mm

DNA của con người chứa khoảng 3 tỷ ký tự mã di truyền. Tuy nhiên, chúng ta chỉ hiểu được một phần nhỏ những gì cuốn cẩm nang hướng dẫn khổng lồ này bảo các tế bào của chúng ta làm. Phần lớn bộ gen vẫn còn là bí ẩn, đặc biệt là 98% không trực tiếp mã hóa protein. Những vùng không mã hóa này từng bị coi là "ADN rác", nhưng giờ đây các nhà khoa học đã biết rằng chúng đóng vai trò quan trọng trong việc kiểm soát thời điểm và cách thức biểu hiện gen.

Trong một bước phát triển đột phá gần đây, DeepMind đã giới thiệu AlphaGenome, một mô hình AI được thiết kế để khám phá những bí ẩn của các vùng không mã hóa này. Công cụ mới này có thể phân tích trình tự DNA dài tới một triệu chữ cái và dự đoán hàng nghìn đặc tính phân tử quyết định cách gen hoạt động. Lần đầu tiên, các nhà nghiên cứu có một hệ thống AI duy nhất có thể giải quyết toàn bộ sự phức tạp của quy định gen với độ chính xác chưa từng có.

Thách thức của việc đọc hướng dẫn di truyền

Hiểu cách DNA hoạt động giống như cố gắng giải mã một ngôn ngữ phức tạp được viết chỉ bằng bốn chữ cái: A, T, C và G. Những chữ cái này tạo thành các khối xây dựng của tất cả thông tin di truyền, nhưng ý nghĩa của chúng phụ thuộc rất nhiều vào ngữ cảnh. Một thay đổi chữ cái duy nhất ở sai vị trí có thể gây ra bệnh tật, trong khi cùng một thay đổi ở nơi khác có thể không có tác dụng gì cả.

Vấn đề càng trở nên phức tạp hơn khi chúng ta xét đến việc gen không hoạt động riêng lẻ. Chúng được điều khiển bởi các yếu tố điều hòa nằm cách xa hàng nghìn, thậm chí hàng trăm nghìn ký tự. Những yếu tố điều hòa này có thể bật hoặc tắt gen, tăng hoặc giảm hoạt động của chúng, và điều phối quá trình phức tạp của các phân tử duy trì hoạt động của tế bào. Đột biến ở những yếu tố điều hòa này có thể gây ra những ảnh hưởng sâu sắc đến sức khỏe và bệnh tật, nhưng việc giải thích tác động của chúng vẫn là một trong những thách thức lớn nhất của ngành nghiên cứu hệ gen. Các mô hình AI trước đây chỉ có thể kiểm tra các đoạn DNA nhỏ cùng một lúc, bỏ lỡ bức tranh toàn cảnh về cách các yếu tố di truyền ở xa hoạt động cùng nhau.

Hiểu về AlphaGenome

AlphaGenome là một bước đột phá đáng kể trong AI về bộ gen. Không giống như các mô hình AI trước đây có thể xem xét các đoạn DNA dài với độ phân giải thấp hoặc kiểm tra các đoạn ngắn một cách chi tiết, AlphaGenome có thể xử lý các chuỗi dài hơn trong khi vẫn duy trì độ chính xác của từng chữ cái trong các dự đoán của mình. Sự kết hợp giữa bối cảnh tầm xa và độ phân giải cao này trước đây là không thể nếu không đòi hỏi các nguồn lực tính toán khổng lồ.

Mô hình sử dụng một kiến ​​trúc chuyên biệt kết hợp ba thành phần chính. Mạng nơ-ron tích chập đầu tiên quét trình tự DNA để xác định các mẫu ngắn có ý nghĩa sinh học. Sau đó, mạng lưới biến đổi phân tích cách các mẫu này liên quan với nhau trên toàn bộ trình tự, nắm bắt các mối phụ thuộc tầm xa rất quan trọng đối với quá trình điều hòa gen. Cuối cùng, các lớp đầu ra chuyên biệt chuyển đổi các mẫu này thành hàng nghìn dự đoán cụ thể về các đặc tính phân tử.

Những dự đoán này bao gồm một loạt các hiện tượng sinh học. AlphaGenome có thể dự đoán gen bắt đầu và dừng ở đâu, chúng sản xuất bao nhiêu RNA, những phần nào của nhiễm sắc thể tiếp xúc với nhau và DNA được ghép nối với nhau như thế nào. Nó cũng có thể chấm điểm các tác động của các biến thể di truyền bằng cách so sánh các dự đoán giữa các trình tự bình thường và đột biến.

Khoa học đằng sau sự đột phá

AlphaGenome được đào tạo trên các tập dữ liệu lớn từ các tập đoàn nghiên cứu quốc tế bao gồm MÃ HÓA, GTEx và Nhân tế bào 4D. Các cơ sở dữ liệu này chứa các phép đo thực nghiệm từ hàng trăm loại tế bào của con người và chuột, cho thấy chính xác cách gen hoạt động trong các mô khác nhau.

Quá trình đào tạo này cho phép AlphaGenome hiểu được cách cùng một trình tự di truyền có thể hoạt động khác nhau ở các loại tế bào khác nhau. Một yếu tố điều hòa kích hoạt một gen trong tế bào não có thể không có tác dụng trong tế bào gan và AlphaGenome có thể dự đoán những khác biệt cụ thể theo ngữ cảnh này.

Mô hình được xây dựng dựa trên công trình nghiên cứu trước đây của DeepMind về hệ gen, bao gồm cả Người cung cấp thông tin mô hình và bổ sung AlphaMissense, tập trung cụ thể vào các vùng mã hóa protein. Cùng nhau, các mô hình này cung cấp một bức tranh hoàn chỉnh hơn về cách các biến thể di truyền ảnh hưởng đến chức năng sinh học.

Điểm chuẩn hiệu suất

Khi đưa ra dự đoán cho các chuỗi DNA đơn lẻ, AlphaGenome vượt trội hơn các mô hình bên ngoài tốt nhất trong 22/24 lần đánh giá. Và khi dự đoán tác động điều tiết của một biến thể, nó đã khớp hoặc vượt trội hơn các mô hình bên ngoài có hiệu suất cao nhất trong 24/26 lần đánh giá.

Điều làm cho điều này thậm chí còn ấn tượng hơn là AlphaGenome đã cạnh tranh với các mô hình chuyên biệt được thiết kế cho từng nhiệm vụ. Mỗi mô hình so sánh được tối ưu hóa cho một loại dự đoán cụ thể, trong khi AlphaGenome xử lý tất cả các nhiệm vụ bằng một phương pháp thống nhất duy nhất.

Mô hình có thể phân tích biến thể di truyền và dự đoán ngay lập tức tác động của nó trên hàng nghìn đặc tính phân tử khác nhau. Tốc độ và phân tích chuyên sâu này cho phép các nhà nghiên cứu tạo ra và kiểm tra các giả thuyết nhanh hơn nhiều so với trước đây.

Ứng dụng thực tế và tác động nghiên cứu

Sự phát triển của AlphaGenome có thể thúc đẩy nghiên cứu trong một số lĩnh vực quan trọng. Các nhà nghiên cứu bệnh học có thể sử dụng mô hình để hiểu rõ hơn về cách các biến thể di truyền góp phần gây bệnh, từ đó có khả năng xác định các mục tiêu điều trị mới. Mô hình này đặc biệt có giá trị trong việc nghiên cứu các biến thể hiếm gặp có tác động lớn, chẳng hạn như các biến thể gây ra rối loạn Mendel.

DeepMind đã chứng minh tiềm năng của mô hình bằng cách nghiên cứu các đột biến liên quan đến ung thư. Ở những bệnh nhân mắc bệnh tế bào T bệnh bạch cầu lymphoblastic cấp tính, AlphaGenome đã dự đoán thành công rằng một số đột biến nhất định sẽ kích hoạt gen TAL1 bằng cách đưa vào một mô típ liên kết DNA MYB. Điều này phù hợp với cơ chế bệnh đã biết và cho thấy cách mô hình có thể liên kết các thay đổi di truyền cụ thể với các quá trình bệnh.

Các nhà nghiên cứu sinh học tổng hợp có thể sử dụng AlphaGenome để thiết kế trình tự DNA với các đặc tính điều tiết cụ thể. Ví dụ, họ có thể tạo ra các công tắc di truyền chỉ kích hoạt ở một số loại tế bào nhất định hoặc trong các điều kiện cụ thể. Điều này có thể dẫn đến các liệu pháp gen chính xác hơn và các công cụ tốt hơn để nghiên cứu chức năng tế bào.

Những hạn chế hiện tại và định hướng tương lai

Mặc dù có khả năng ấn tượng, AlphaGenome vẫn có những hạn chế quan trọng mà các nhà nghiên cứu cần hiểu. Giống như các mô hình dựa trên trình tự khác, nó gặp khó khăn trong việc nắm bắt chính xác ảnh hưởng của các yếu tố điều hòa rất xa nằm cách xa hơn 100,000 chữ cái so với các gen mà chúng kiểm soát. Mô hình này cũng cần được cải thiện trong việc nắm bắt các kiểu điều hòa gen cụ thể theo tế bào và mô.

Mô hình này không được thiết kế để phân tích bộ gen cá nhân, vốn đặt ra những thách thức đặc thù cho các hệ thống AI. Thay vào đó, nó tập trung vào việc mô tả tác động của từng biến thể di truyền, vốn phù hợp hơn cho các ứng dụng nghiên cứu hơn là chẩn đoán lâm sàng.

AlphaGenome có thể dự đoán kết quả phân tử nhưng không cung cấp bức tranh toàn cảnh về cách các biến thể di truyền dẫn đến các đặc điểm hoặc bệnh lý phức tạp. Những biến thể này thường liên quan đến các quá trình sinh học rộng hơn, bao gồm các yếu tố phát triển và môi trường, vượt ra ngoài tác động trực tiếp của những thay đổi trình tự DNA.

Dân chủ hóa quyền truy cập vào AI bộ gen

DeepMind đã tạo ra AlphaGenome có sẵn cho nghiên cứu phi thương mại thông qua API, cho phép các nhà nghiên cứu trên toàn thế giới tiếp cận các khả năng của mô hình. Việc dân chủ hóa AI bộ gen tiên tiến này có thể đẩy nhanh quá trình khám phá khoa học bằng cách cung cấp cho các nhóm nghiên cứu nhỏ hơn quyền truy cập vào các công cụ mà trước đây chỉ dành cho các tổ chức lớn với nguồn lực tính toán đáng kể.

Công ty cũng đã thành lập một cộng đồng diễn đàn nơi các nhà nghiên cứu có thể chia sẻ các trường hợp sử dụng, đặt câu hỏi và cung cấp phản hồi. Cách tiếp cận hợp tác này có thể giúp xác định các ứng dụng mới và hướng dẫn các cải tiến trong tương lai cho mô hình.

Nhìn về phía trước

Khi các nhà nghiên cứu bắt đầu sử dụng AlphaGenome trong công việc của họ, chúng ta có thể mong đợi những khám phá mới về cách các biến thể di truyền góp phần vào bệnh tật, tiến hóa và đa dạng sinh học. Mô hình cung cấp nền tảng mà các nhà khoa học khác có thể xây dựng, tinh chỉnh nó cho các câu hỏi nghiên cứu cụ thể của họ.

Các phiên bản tương lai của mô hình có thể mở rộng để bao phủ nhiều loài hơn, bao gồm các loại dữ liệu sinh học bổ sung hoặc đạt được hiệu suất thậm chí tốt hơn thông qua các kỹ thuật đào tạo được cải thiện. DeepMind đã chứng minh rằng phương pháp tiếp cận của họ có thể mở rộng và linh hoạt, cho thấy rằng các hệ thống AI bộ gen thậm chí còn mạnh mẽ hơn có thể khả thi trong tương lai.

Lời kết

Sự ra đời của AlphaGenome là một bước tiến đáng kể trong hành trình khám phá những bí mật ẩn giấu của bộ gen. Mặc dù vẫn còn nhiều bí ẩn, nhưng giờ đây chúng ta đã có một công cụ mới mạnh mẽ để khám phá cơ chế điều hòa phức tạp được mã hóa trong DNA. Khi các nhà nghiên cứu trên khắp thế giới bắt đầu sử dụng công nghệ này, chúng ta có thể sẽ thấy những tiến bộ vượt bậc trong việc tìm hiểu cách các biến thể di truyền định hình sức khỏe và bệnh tật của con người.

Đối với cộng đồng khoa học, AlphaGenome vừa là cơ hội vừa là trách nhiệm. Những dự đoán của mô hình có thể định hướng cho các quyết định nghiên cứu quan trọng và giúp ưu tiên công việc thực nghiệm. Nhưng như với bất kỳ công cụ mạnh mẽ nào, tác động của nó cuối cùng sẽ phụ thuộc vào việc nó được áp dụng một cách chu đáo và cẩn thận như thế nào vào các vấn đề sinh học trong thế giới thực.

Tiến sĩ Tehseen Zia là Phó Giáo sư chính thức tại Đại học COMSATS Islamabad, có bằng Tiến sĩ về AI tại Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ nhân tạo, Học máy, Khoa học dữ liệu và Thị giác máy tính, ông đã có những đóng góp đáng kể với các công bố trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã lãnh đạo nhiều dự án công nghiệp khác nhau với tư cách là Điều tra viên chính và là Nhà tư vấn AI.