Connect with us

医疗健康

Google DeepMind 发布 AlphaGenome 以解码人类基因组功能

mm

Google DeepMind 于 1 月 28 日发布了 AlphaGenome,一种可以预测 DNA 序列如何转化为生物功能的 AI 模型,能够同时处理多达一百万个碱基对,并在 26 个变体效应预测基准中优于现有模型中的 25 个。

该模型在 Nature 上发表,并在 DeepMind 博客 上进行了详细介绍,代表着计算基因组学领域的重大进步。以前的模型需要为不同的预测任务使用单独的系统,而 AlphaGenome 可以在单一的统一架构中处理从基因表达到染色质可及性等一切内容。

“AlphaGenome 可以扫描一段长的 DNA 序列,并预测其中的关键调控元件及其对基因表达的下游影响,”DeepMind 团队在他们的公告中写道。该模型的百万令牌上下文窗口使其能够捕获远距离 DNA 区域之间的长距离相互作用,这些相互作用会影响基因的开启和关闭。

工作原理

AlphaGenome 结合了两种神经网络架构:一种用于处理原始 DNA 序列的 Borzoi 风格的 1D 卷积网络和一种从图像分割中改编的 U-Net 架构。这种混合方法使模型能够同时处理 DNA 的序列性质和调控元件之间的复杂空间关系。

训练数据涵盖了大约 7,000 个基因组轨道来自 ENCODE 和 FANTOM 联盟——这些是大规模的合作努力,已将功能元件编目到整个人类基因组中。该模型学习预测来自实验测量基因表达、DNA 可及性、蛋白质结合和染色质修饰的信号。

对于研究人员来说,实用价值在于变体效应预测。当患者的基因组中含有一个突变时,临床医生需要知道该变体是否重要。AlphaGenome 可以预测单个核苷酸变化如何影响整个调控景观,可能会标记当前方法遗漏的致病变体。

该模型在测试其预测遗传变体如何影响基因表达和调控元件活动的基准测试中取得了强劲的成绩。在表达量性状位点(eQTLs)——已知影响基因表达水平的变体——上,AlphaGenome 匹配或超过了专门为这些任务训练的专用模型。

开源可用性

DeepMind 在 GitHub 上发布了 AlphaGenome 的 源代码,用于非商业用途,继续遵循实验室公开提供基础生物工具的模式。存储库包括模型权重、推理代码和运行自定义序列预测的文档。

开放发布遵循 AlphaFold 的模式,AlphaFold 是 DeepMind 的蛋白质结构预测工具,自 2021 年发布以来已被超过 300 万研究人员使用。AlphaGenome 解决了一个互补的问题:虽然 AlphaFold 预测蛋白质的外观,但 AlphaGenome 预测基因何时和在哪里产生这些蛋白质。

Google DeepMind 首席执行官 Demis Hassabis 将生物学定位为实验室人工智能能力的主要应用领域。基因组学工作扩展了 DeepMind 超越对话式人工智能和语言模型的雄心壮志,这些模型为 Gemini 等产品提供支持,应用类似的架构创新来解决科学问题。

为什么这很重要

人类基因组包含大约 30 亿个碱基对,但只有大约 1.5% 直接编码蛋白质。其余 98.5%——长期被忽视为“垃圾 DNA”——包含调控元件,控制基因何时、在哪里和以何种程度表达。非编码区域的突变会导致疾病,但确定哪些变体很重要一直非常困难。

传统方法需要昂贵、耗时的实验来测试单个变体。像 AlphaGenome 这样的机器学习模型可以计算地筛选数千个变体,优先考虑哪些变体值得进行实验跟进。对于罕见疾病的诊断,患者通常携带具有未知影响的新变体,这种能力可以加速从测序到诊断的路径。

该模型能够处理百万个碱基对的上下文尤其重要。基因调控元件可以距离它们控制的基因数十万个碱基对,通过 DNA 的复杂 3D 折叠进行通信。以前的模型具有较短的上下文窗口,无法捕获这些长距离依赖。

AlphaGenome 加入了一个日益增长的生态系统,人工智能工具正在改变生物研究。蛋白质结构预测、药物发现和现在的基因调控越来越成为机器学习可以解决的问题。对于遗传学研究社区来说,这些模型的开放可用性使计算能力民主化,这些能力以前仅限于资金充足的实验室。

该模型的局限性也很明显,从 DeepMind 的演示中可以看出。虽然 AlphaGenome 在预测实验测量方面表现出色,但将这些预测转化为临床结果需要额外的验证。预测染色质可及性和预测疾病风险之间的差距仍然很大。

就目前而言,AlphaGenome 服务于研究工具——它可以加速对基因组工作原理的理解,即使临床应用仍然几年后的事情。已经有 3,000 名科学家在 160 个国家使用该模型,这表明研究界认为 DeepMind 建立的东西具有立即的价值。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。