医疗健康
谷歌DeepMind发布AlphaGenome,用于解码人类基因组功能

谷歌DeepMind于1月28日发布了AlphaGenome,一种预测DNA序列如何转化为生物功能的AI模型,能够同时处理多达一百万个碱基对,并在26个变体效应预测基准中超越现有模型。
该模型在Nature上发表,并在DeepMind博客上进行了详细介绍,代表了计算基因组学领域的重大进步。与之前需要单独的系统来执行不同的预测任务不同,AlphaGenome可以处理从基因表达到染色质可及性等一切内容,采用单一的统一架构。
“AlphaGenome可以扫描一段长的DNA序列,并预测其中的关键调控元件及其对基因表达的下游影响,”DeepMind团队在他们的公告中写道。该模型的百万令牌上下文窗口使其能够捕获远距离DNA区域之间的长程相互作用,这些相互作用会影响基因的开启和关闭。
它的工作原理
AlphaGenome结合了两种神经网络架构:一种用于处理原始DNA序列的Borzoi风格的一维卷积网络和一种从图像分割中改编的U-Net架构。这种混合方法使得该模型能够同时处理DNA的序列性质和调控元件之间的复杂空间关系。
训练数据涵盖了来自ENCODE和FANTOM协会的大约7,000个基因组轨道,这些协会是大规模的合作努力,已经编目了整个人类基因组的功能元件。该模型学习预测来自实验测量的信号,包括基因表达、DNA可及性、蛋白质结合和染色质修饰。
对于研究人员来说,实用价值在于变体效应预测。当患者的基因组包含一个突变时,临床医生需要知道该变体是否重要。AlphaGenome可以预测单个核苷酸变化如何影响整个调控景观,可能会标记当前方法未能发现的致病变体。
该模型在基准测试中取得了强劲的结果,测试其预测遗传变体如何影响基因表达和调控元件活性的能力。在表达量性状位点(eQTLs)上,已知会影响基因表达水平的变体,AlphaGenome与专门为这些任务训练的专用模型相匹配或超越。
开源可用性
DeepMind在GitHub上发布了AlphaGenome的源代码,用于非商业用途,继续遵循实验室公开基础生物工具的模式。存储库包括模型权重、推理代码和自定义序列预测的文档。
开源发布遵循AlphaFold的模式,AlphaFold是DeepMind的蛋白质结构预测工具,自2021年发布以来已被超过300万研究人员使用。AlphaGenome解决了一个互补问题:虽然AlphaFold预测蛋白质的外观,AlphaGenome预测基因何时和在哪里产生这些蛋白质。
谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)将生物学定位为实验室人工智能能力的主要应用领域。基因组学工作延伸了DeepMind的雄心壮志,超越了对话式人工智能和语言模型,这些模型为像Gemini这样的产品提供了动力,应用类似的架构创新于科学问题。
为什么这很重要
人类基因组包含大约30亿个碱基对,但只有大约1.5%直接编码蛋白质。剩余的98.5%——长期被认为是“垃圾DNA”——包含调控元件,这些元件控制基因何时、在哪里以及以何种程度表达。非编码区域中的突变会导致疾病,但确定哪些变体很重要一直非常困难。
传统方法需要昂贵、耗时的实验来测试个别变体。像AlphaGenome这样的机器学习模型可以计算地筛选数千个变体,优先考虑哪些变体值得进行实验跟进。对于罕见疾病的诊断,患者通常携带具有未知影响的新变体,这种能力可以加速从测序到诊断的过程。
该模型能够处理百万个碱基对的上下文尤其重要。基因调控元件可以距离它们控制的基因数十万个碱基对,通过DNA的复杂三维折叠进行通信。之前具有较短上下文窗口的模型无法捕获这些长距离依赖关系。
AlphaGenome加入了一个日益增长的AI工具生态系统,该生态系统正在改变生物学研究。蛋白质结构预测、药物发现和现在的基因调控都是机器学习可以解决的问题。对于遗传学研究社区来说,这些模型的公开可用性使得计算能力民主化,这些能力以前仅限于资金充足的实验室。
该模型的局限性也在DeepMind的演示中很明显。虽然AlphaGenome在预测实验测量方面表现出色,但将这些预测转化为临床结果需要额外的验证。预测染色质可及性和预测疾病风险之间的差距仍然很大。
目前,AlphaGenome作为一个研究工具——即使临床应用仍然几年后的事情,它也可能加速对基因组工作原理的理解。已经有3,000名科学家在160个国家使用该模型,表明研究社区在DeepMind构建的内容中看到了立即的价值。












