AI 模型与平台

解码基因组的隐藏秘密:AlphaGenome 的突破

mm

人类 DNA 含有大约 30 亿个遗传密码字母。然而,我们只理解了其中一小部分关于细胞如何运作的指令。基因组中有 98% 的部分不直接编码蛋白质,这些非编码区域曾经被认为是 ” 垃圾 DNA “,但科学家现在知道它们在控制基因表达时起着至关重要的作用。

最近,DeepMind 推出了 AlphaGenome,这是一种人工智能模型,旨在揭示这些非编码区域的秘密。这种新工具可以分析长达一百万个字母的 DNA 序列,并预测决定基因功能的成千上万个分子特性。研究人员现在有了一个单一的 AI 系统,可以以前所未有的准确性处理基因调控的全部复杂性。

阅读基因指令的挑战

理解 DNA 的工作原理就像试图破解一种只使用四个字母(A、T、C 和 G)书写的复杂语言。这些字母构成了所有遗传信息的基础,但其含义在很大程度上取决于上下文。一个错误的字母位置变化可能会导致疾病,而同样的变化在其他地方可能没有任何影响。

问题变得更加复杂,当我们考虑到基因不独立工作时。它们受到位于远处的调控元件的控制,这些调控元件可以位于几千或几十万个字母以外。这些远距离控制器可以打开或关闭基因,增加或减少其活性,并协调保持细胞功能的复杂分子过程。这些控制器的突变可能对健康和疾病产生深远影响,但解释其影响一直是基因组学面临的最大挑战之一。以前的 AI 模型只能一次检查 DNA 的小部分,忽略了远距离遗传元件如何协同工作的更广泛图景。

理解 AlphaGenome

AlphaGenome 是基因组学人工智能领域的一个重大突破。与之前只能以低分辨率检查长 DNA 序列或以高分辨率检查短序列的 AI 模型不同,AlphaGenome 可以处理更长的序列,同时保持单个字母的精度。这种长距离上下文和高分辨率的结合以前在不需要大量计算资源的情况下是不可能的。

该模型使用一种专门的架构,将三个关键组件组合在一起。卷积神经网络首先扫描 DNA 序列以识别具有生物学意义的短模式。然后,Transformer 网络分析这些模式如何相互关联,捕获基因调控所必需的长距离依赖关系。最后,专门的输出层将这些模式转换为成千上万个关于分子特性的预测。

这些预测涵盖了各种生物现象。AlphaGenome 可以预测基因的起始和终止位置,RNA 的产生量,染色体的接触点以及 DNA 的拼接方式。它还可以通过比较正常和突变序列的预测来评估遗传变异的影响。

突破的科学原理

AlphaGenome 是在国际研究联合体的大型数据集上训练的,包括 ENCODE、GTEx 和 4D Nucleome。这些数据库包含来自数百个人类和小鼠细胞类型的实验测量数据,展示了基因在不同组织中的行为。

这种训练使 AlphaGenome 能够理解同一个遗传序列如何在不同的细胞类型中表现出不同的行为。在脑细胞中激活基因的调控元件可能在肝细胞中没有任何影响,AlphaGenome 可以预测这些上下文特异性的差异。

该模型建立在 DeepMind 之前的基因组学工作基础上,包括他们之前的 Enformer 模型,并补充了 AlphaMissense,后者专注于编码蛋白质的区域。这些模型共同提供了遗传变异如何影响生物功能的更完整图景。

性能基准

在预测单个 DNA 序列时,AlphaGenome 在 24 项评估中的 22 项中超越了最佳的外部模型。在预测变异的调控效应时,它在 26 项评估中的 24 项中达到或超过了最佳的外部模型。

使其更加令人印象深刻的是,AlphaGenome 与专门为单个任务设计的专用模型竞争。每个比较模型都针对特定预测类型进行了优化,而 AlphaGenome 则使用单一的统一方法处理所有任务。

该模型可以分析遗传变异并立即预测其对成千上万个不同分子特性的影响。这种速度和深入分析使研究人员能够比以往任何时候都更快地生成和测试假设。

现实世界应用和研究影响

AlphaGenome 的发展可能会加速几个重要研究领域的进展。疾病研究人员可以使用该模型更好地理解遗传变异如何导致疾病,可能会识别新的治疗靶点。该模型对于研究具有大效应的罕见变异(如孟德尔病)尤其有价值。

DeepMind 已经通过研究与癌症相关的突变来展示了该模型的潜力。在 T 细胞急性淋巴细胞白血病患者中,AlphaGenome 成功预测了某些突变将通过引入 MYB DNA 结合基序激活 TAL1 基因。这与已知的疾病机制相符,展示了该模型如何将特定的遗传变化与疾病过程联系起来。

合成生物学研究人员可以使用 AlphaGenome 设计具有特定调控特性的 DNA 序列。例如,他们可能会创建仅在特定细胞类型或条件下激活的基因开关。这可能会导致更精确的基因治疗和更好的工具用于研究细胞功能。

当前限制和未来方向

尽管 AlphaGenome 具有令人印象深刻的能力,但研究人员应该了解其重要的限制。与其他基于序列的模型一样,它难以准确捕捉到位于基因控制区域以外 10 万个字母的调控元件的影响。该模型还需要改进以捕捉细胞特异性和组织特异性的基因调控模式。

该模型并非旨在进行个人基因组分析,这对 AI 系统来说带来了独特的挑战。相反,它专注于表征个别遗传变异的影响,这更适合研究应用而非临床诊断。

AlphaGenome 可以预测分子结果,但不能提供遗传变异如何导致复杂特征或疾病的完整图景。这些通常涉及更广泛的生物过程,包括发育和环境因素,这些因素超出了 DNA 序列变化的直接影响。

基因组学人工智能的民主化

DeepMind 已经通过 API 将 AlphaGenome 提供给非商业研究使用,使全球的研究人员能够访问该模型的功能。这种先进基因组学人工智能的民主化可能会通过为小型研究团队提供以前只对大型机构开放的工具来加速科学发现。

该公司还建立了一个社区 论坛,研究人员可以在那里分享用例,提问并提供反馈。这种协作方法可能有助于确定新的应用并指导对该模型的未来改进。

展望未来

随着研究人员开始在工作中使用 AlphaGenome,我们可以期待关于遗传变异如何导致疾病、进化和生物多样性的新发现。该模型为其他科学家提供了一个基础,他们可以在此基础上改进它,以回答他们特定的研究问题。

未来版本的模型可能会扩展到涵盖更多物种,包括其他类型的生物数据,或通过改进的训练技术实现更好的性能。DeepMind 已经展示了他们的方法是可扩展和灵活的,这表明可能会开发出更强大的基因组学人工智能系统。

结论

AlphaGenome 的引入是我们了解基因组隐藏秘密的旅程中的一个重大进步。虽然仍有许多谜团,但我们现在拥有了一种强大的新工具来探索编码在我们的 DNA 中的庞大调控机制。随着全球研究人员开始使用这项技术,我们可能会看到对人类健康和疾病的遗传变异影响的理解取得加速进展。

对于科学界,AlphaGenome 既是机遇也是责任。该模型的预测可能会指导重要的研究决策并帮助优先安排实验工作。但是,像任何强大的工具一样,其影响最终将取决于它如何被应用于现实世界的生物问题。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。