谷歌DeepMind发布AlphaGenome，用于解码人类基因组功能

发布于 2026年2月1日

更新于 2026年5月16日

作者

Alex McFarland

谷歌DeepMind于1月28日发布了AlphaGenome，一种预测DNA序列如何转化为生物功能的AI模型，能够同时处理多达一百万个碱基对，并在26个变体效应预测基准中超越现有模型。

该模型在Nature上发表，并在DeepMind博客上进行了详细介绍，代表了计算基因组学领域的重大进步。与之前需要单独的系统来执行不同的预测任务不同，AlphaGenome可以处理从基因表达到染色质可及性等一切内容，采用单一的统一架构。

“AlphaGenome可以扫描一段长的DNA序列，并预测其中的关键调控元件及其对基因表达的下游影响，”DeepMind团队在他们的公告中写道。该模型的百万令牌上下文窗口使其能够捕获远距离DNA区域之间的长程相互作用，这些相互作用会影响基因的开启和关闭。

它的工作原理

AlphaGenome结合了两种神经网络架构：一种用于处理原始DNA序列的Borzoi风格的一维卷积网络和一种从图像分割中改编的U-Net架构。这种混合方法使得该模型能够同时处理DNA的序列性质和调控元件之间的复杂空间关系。

训练数据涵盖了来自ENCODE和FANTOM协会的大约7,000个基因组轨道，这些协会是大规模的合作努力，已经编目了整个人类基因组的功能元件。该模型学习预测来自实验测量的信号，包括基因表达、DNA可及性、蛋白质结合和染色质修饰。

对于研究人员来说，实用价值在于变体效应预测。当患者的基因组包含一个突变时，临床医生需要知道该变体是否重要。AlphaGenome可以预测单个核苷酸变化如何影响整个调控景观，可能会标记当前方法未能发现的致病变体。

该模型在基准测试中取得了强劲的结果，测试其预测遗传变体如何影响基因表达和调控元件活性的能力。在表达量性状位点（eQTLs）上，已知会影响基因表达水平的变体，AlphaGenome与专门为这些任务训练的专用模型相匹配或超越。

DeepMind在GitHub上发布了AlphaGenome的源代码，用于非商业用途，继续遵循实验室公开基础生物工具的模式。存储库包括模型权重、推理代码和自定义序列预测的文档。

开源发布遵循AlphaFold的模式，AlphaFold是DeepMind的蛋白质结构预测工具，自2021年发布以来已被超过300万研究人员使用。AlphaGenome解决了一个互补问题：虽然AlphaFold预测蛋白质的外观，AlphaGenome预测基因何时和在哪里产生这些蛋白质。

谷歌DeepMind首席执行官德米斯·哈萨比斯（Demis Hassabis）将生物学定位为实验室人工智能能力的主要应用领域。基因组学工作延伸了DeepMind的雄心壮志，超越了对话式人工智能和语言模型，这些模型为像Gemini这样的产品提供了动力，应用类似的架构创新于科学问题。

人类基因组包含大约30亿个碱基对，但只有大约1.5%直接编码蛋白质。剩余的98.5%——长期被认为是“垃圾DNA”——包含调控元件，这些元件控制基因何时、在哪里以及以何种程度表达。非编码区域中的突变会导致疾病，但确定哪些变体很重要一直非常困难。

传统方法需要昂贵、耗时的实验来测试个别变体。像AlphaGenome这样的机器学习模型可以计算地筛选数千个变体，优先考虑哪些变体值得进行实验跟进。对于罕见疾病的诊断，患者通常携带具有未知影响的新变体，这种能力可以加速从测序到诊断的过程。

该模型能够处理百万个碱基对的上下文尤其重要。基因调控元件可以距离它们控制的基因数十万个碱基对，通过DNA的复杂三维折叠进行通信。之前具有较短上下文窗口的模型无法捕获这些长距离依赖关系。

AlphaGenome加入了一个日益增长的AI工具生态系统，该生态系统正在改变生物学研究。蛋白质结构预测、药物发现和现在的基因调控都是机器学习可以解决的问题。对于遗传学研究社区来说，这些模型的公开可用性使得计算能力民主化，这些能力以前仅限于资金充足的实验室。

该模型的局限性也在DeepMind的演示中很明显。虽然AlphaGenome在预测实验测量方面表现出色，但将这些预测转化为临床结果需要额外的验证。预测染色质可及性和预测疾病风险之间的差距仍然很大。

目前，AlphaGenome作为一个研究工具——即使临床应用仍然几年后的事情，它也可能加速对基因组工作原理的理解。已经有3,000名科学家在160个国家使用该模型，表明研究社区在DeepMind构建的内容中看到了立即的价值。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。