Connect with us

人工智能

解码基因组隐藏的秘密:AlphaGenome 的突破

mm

人类 DNA 包含大约 30 亿个基因代码字母。然而,我们只理解了这本浩瀚的指令手册中的一小部分,它告诉我们的细胞该做什么。基因组的大部分仍然是一个谜,尤其是 98% 不直接编码蛋白质的非编码区域。这些非编码区域曾经被认为是 ” 垃圾 DNA “,但科学家们现在知道它们在控制基因表达的时机和方式方面发挥着至关重要的作用。

最近,DeepMind 推出了 AlphaGenome,这是一种人工智能模型,旨在揭示这些非编码区域的秘密。这一新工具可以分析长达一百万个字母的 DNA 序列,并预测决定基因工作方式的数千个分子特性。研究人员现在第一次拥有一个可以以前所未有的准确性处理基因调控的全部复杂性的单一 AI 系统。

阅读基因指令的挑战

理解 DNA 的工作方式就像试图破解一种只用四个字母(A、T、C 和 G)书写的复杂语言。这些字母构成了所有基因信息的基础,但它们的含义在很大程度上取决于上下文。在错误的位置改变一个字母可能会导致疾病,而在其他地方进行相同的改变可能不会产生任何影响。

问题变得更加复杂,因为我们考虑到基因并不孤立地工作。它们受到位于数千或甚至数十万个字母远处的调控元件的控制。这些遥远的控制器可以打开或关闭基因,增加或减少它们的活动,并协调维持细胞功能的复杂分子过程。这些控制器中的突变可能对健康和疾病产生深远的影响,但解释它们的影响仍然是基因组学面临的最大挑战之一。以前的 AI 模型只能一次检查 DNA 的小部分,忽略了遥远的遗传元件如何协同工作的更广泛的图景。

了解 AlphaGenome

AlphaGenome 是基因组 AI 领域的一项重大突破。与之前的 AI 模型不同,之前的模型只能以低分辨率检查长 DNA 序列,或者检查短序列的细节,AlphaGenome 可以处理更长的序列,同时保持单个字母的精度。这种长距离上下文和高分辨率的结合以前是无法实现的,除非需要大量的计算资源。

该模型使用一种专门的架构,它结合了三个关键组件。卷积神经网络首先扫描 DNA 序列以识别具有生物学意义的短模式。然后,Transformer 网络分析这些模式如何在整个序列中相互关联,捕获基因调控所必需的长距离依赖关系。最后,专门的输出层将这些模式转换为数千个关于分子特性的具体预测。

这些预测涵盖了各种生物现象。AlphaGenome 可以预测基因的起始和终止位置、它们产生的 RNA 数量、染色体的哪些部分相互接触以及 DNA 如何拼接在一起。它还可以通过比较正常和突变序列之间的预测来评分遗传变异的影响。

突破背后的科学

AlphaGenome是在包括 ENCODE、GTEx 和 4D Nucleome 在内的国际研究联盟的庞大数据集上进行训练的。这些数据库包含来自数百种人类和小鼠细胞类型的实验测量结果,显示了基因在不同组织中的行为。

这种训练使 AlphaGenome 能够理解相同的遗传序列如何在不同细胞类型中表现出不同的行为。在脑细胞中激活基因的调控元件可能在肝细胞中没有任何作用,AlphaGenome 可以预测这些上下文特定的差异。

该模型建立在 DeepMind 之前的基因组学工作基础上,包括他们之前的 Enformer 模型,并补充了 AlphaMissense,后者专门针对编码蛋白质的区域。这些模型共同提供了遗传变异如何影响生物功能的更完整图景。

性能基准

在为单个 DNA 序列生成预测时,AlphaGenome 在 24 项评估中的 22 项中超越了最佳的外部模型。在预测变异的调控效应时,它在 26 项评估中的 24 项中匹配或超过了表现最佳的外部模型。

使其更加令人印象深刻的是,AlphaGenome 竞争对手是为单个任务专门设计的模型。每个比较模型都针对一种特定的预测类型进行了优化,而 AlphaGenome 使用单一的统一方法处理所有任务。

该模型可以分析遗传变异并立即预测其对数千个不同分子特性的影响。这种速度和深入分析使研究人员能够比以前更快地生成和测试假设。

实际应用和研究影响

AlphaGenome 的开发可能会加速多个重要领域的研究。疾病研究人员可以使用该模型更好地了解遗传变异如何导致疾病,可能会确定新的治疗靶点。该模型对于研究罕见变异具有重要意义,例如那些导致孟德尔病的变异。

DeepMind 已经通过调查与癌症相关的突变来展示了该模型的潜力。在患有 T 细胞 急性淋巴细胞白血病 的患者中,AlphaGenome 成功预测了某些突变将通过引入 MYB DNA 结合模式激活 TAL1 基因。这与已知的疾病机制相符,并展示了该模型如何将特定的遗传变化与疾病过程联系起来。

合成生物学研究人员可以使用 AlphaGenome 设计具有特定调控特性的 DNA 序列。例如,他们可能会创建仅在特定细胞类型或特定条件下激活的基因开关。这可能会导致更精确的基因治疗和更好的工具来研究细胞功能。

当前限制和未来方向

尽管 AlphaGenome 具有令人印象深刻的能力,但研究人员应该了解它的重要限制。与其他基于序列的模型一样,它难以准确捕捉位于基因控制区域以外 10 万个字母的非常遥远的调控元件的影响。该模型还需要在捕捉细胞特异性和组织特异性基因调控模式方面进行改进。

该模型不是为个人基因组分析而设计的,这对 AI 系统来说是一个独特的挑战。相反,它专注于表征单个遗传变异的影响,这更适合研究应用而不是临床诊断。

AlphaGenome 可以预测分子结果,但不能提供遗传变异如何导致复杂特征或疾病的完整图景。这些通常涉及更广泛的生物过程,包括发育和环境因素,这些因素超出了 DNA 序列变化的直接影响。

基因组 AI 的民主化

DeepMind 已经通过 API 将 AlphaGenome 提供给非商业研究使用,使全球的研究人员能够访问该模型的功能。这种先进的基因组 AI 的民主化可能会通过为小型研究团队提供以前只对具有大量计算资源的大型机构开放的工具来加速科学发现。

该公司还建立了一个社区 论坛,研究人员可以在那里分享用例,提出问题,并提供反馈。这种协作方法可能有助于识别新的应用,并指导对该模型的未来改进。

展望

随着研究人员开始在工作中使用 AlphaGenome,我们可以期待关于遗传变异如何导致疾病、进化和生物多样性的新发现。该模型为其他科学家提供了一个基础,他们可以在此基础上改进它,以适应他们的特定研究问题。

未来版本的模型可能会扩展到涵盖更多物种,包括其他类型的生物数据,或通过改进的训练技术实现更好的性能。DeepMind 已经证明了他们的方法是可扩展和灵活的,这表明可能会有甚至更强大的基因组 AI 系统在未来出现。

总结

AlphaGenome 的推出是我们探索基因组隐藏秘密的旅程中的一项重大进展。虽然仍有许多谜团,但我们现在拥有了一种强大的新工具来探索编码在我们的 DNA 中的庞大调控机制。

对于科学界来说,AlphaGenome 既是一个机会,也是一种责任。该模型的预测可能会指导重要的研究决策,并帮助确定实验工作的优先顺序。但是,像任何强大的工具一样,其影响最终将取决于它如何被应用于现实世界的生物学问题。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。