人工智能
从Evo 1到Evo 2:NVIDIA如何重新定义基因组研究和AI驱动的生物创新
想象一个世界,我们可以通过分析一系列字母来预测生命的行为。这不是科幻小说或魔法世界,而是一个真实的世界,科学家们多年来一直努力实现这一目标。这些序列由四个核苷酸(A、T、C和G)组成,包含地球上从最小的微生物到最大的哺乳动物的生命的基本指令。解码这些序列有可能解锁复杂的生物过程,改变个人化医学和环境可持续性等领域。
然而,尽管具有巨大的潜力,解码甚至最简单的微生物基因组仍是一项高度复杂的任务。这些基因组由数百万个DNA碱基对组成,调节DNA、RNA和蛋白质之间的相互作用——分子生物学中心法则的三个关键元素。这种复杂性存在于多个层次,从个别分子到整个基因组,创造了一个庞大的遗传信息领域,跨越了数十亿年的演化。
传统的计算工具难以处理生物序列的复杂性。但是,随着生成式AI的兴起,现在可以扩展到数万亿的序列,并理解序列标记之间的复杂关系。基于这一进展,Arc研究所、斯坦福大学和NVIDIA的研究人员一直致力于构建一个可以理解生物序列的AI系统,就像大型语言模型理解人类文本一样。现在,他们通过创建一个可以捕捉分子生物学中心法则的多模态性质和演化复杂性的模型而取得了突破性的进展。这一创新可能会导致预测和设计新的生物序列,从个别分子到整个基因组。在本文中,我们将探讨这一技术的工作原理、其潜在应用、面临的挑战和基因组建模的未来。
EVO 1:基因组建模的先驱模型
这一研究在2024年末引起了关注,当时NVIDIA和其合作伙伴推出了Evo 1,一个用于分析和生成DNA、RNA和蛋白质生物序列的开创性模型。该模型是在270万个原核和噬菌体基因组上训练的,总共300亿个核苷酸标记,重点是整合分子生物学中心法则,模拟从DNA到RNA到蛋白质的遗传信息流。其StripedHyena架构是一种混合模型,使用卷积滤波器和门,能够高效地处理长达131,072个标记的上下文。这一设计使Evo 1能够将小的序列变化与更广泛的系统范围和生物体级别的影响联系起来,弥合了分子生物学和进化基因组学之间的差距。
Evo 1是计算机模拟生物进化的第一步。它通过分析遗传序列中的进化模式成功预测了分子相互作用和遗传变异。然而,当科学家们试图将其应用于更复杂的真核基因组时,该模型的局限性变得明显。Evo 1难以在长DNA序列上实现单核苷酸分辨率,并且对于较大的基因组来说计算成本很高。这些挑战导致了对更先进的模型的需求,这种模型能够在多个尺度上整合生物数据。
EVO 2:基因组建模的基础模型
在Evo-1的经验基础上,研究人员于2025年2月推出了Evo 2,推进了生物序列建模领域的发展。 训练 在惊人的9.3万亿个DNA碱基对上,该模型已经学会了理解和预测遗传变异在所有生命领域的功能后果,包括细菌、古菌、植物、真菌和动物。拥有超过400亿个参数,Evo-2的模型可以处理前所未有的序列长度,高达100万个碱基对,这是之前的模型,包括Evo-1,无法做到的。
什么使Evo 2与其前辈区别开来的是其能够不仅模拟DNA序列,还能模拟DNA、RNA和蛋白质之间的相互作用——分子生物学中心法则的全部内容。这使得Evo 2能够准确预测遗传突变的影响,从最小的核苷酸变化到更大的结构变异,以以前无法做到的方式。
Evo 2的一个关键特性是其强大的零样本预测能力,它可以在不需要任务特定微调的情况下预测突变的功能影响。例如,它通过分析DNA序列准确地对临床上重要的BRCA1变体进行分类,这是乳腺癌研究的一个关键因素。
生物分子科学中的潜在应用
Evo 2的能力为基因组学、分子生物学和生物技术开辟了新的前沿。其中一些最有前途的应用包括:
- 医疗保健和药物发现: Evo 2可以预测哪些基因变体与特定的疾病有关,有助于开发靶向治疗。例如,在测试 中,Evo 2在预测BRCA1变体的突变是否良性或潜在致病方面实现了90%以上的准确率。这些见解可以加速新药和个性化治疗的开发。
- 合成生物学和基因工程: Evo 2能够生成整个基因组,开辟了设计具有所需特性的合成生物的新途径。研究人员可以利用Evo 2设计具有特定功能的基因,推进生物燃料、环保化学品和新型治疗的开发。
- 农业生物技术: 它可以用于设计具有改良特性的转基因作物,如抗旱或抗虫能力,有助于全球粮食安全和农业可持续性。
- 环境科学: Evo 2可以应用于设计生物燃料或工程蛋白质以分解环境污染物,如石油或塑料,有助于可持续发展努力。
挑战和未来方向
尽管Evo 2具有令人印象深刻的能力,但它面临着挑战。一个关键的障碍是训练和运行该模型所涉及的计算复杂性。拥有100万个碱基对的上下文窗口和400亿个参数,Evo 2需要大量的计算资源才能有效地运行。这使得小型研究团队难以充分利用其潜力,而没有访问高性能计算基础设施。
此外,虽然Evo 2在预测遗传突变的影响方面表现出色,但仍有很多东西需要学习,例如如何使用它从头设计新的生物系统。生成真实的生物序列只是第一步;真正的挑战在于如何利用这种能力创建功能性、可持续的生物系统。
AI在基因组学中的可及性和民主化
Evo 2最令人兴奋的方面之一是其开源可用性。为了使先进的基因组建模工具民主化,NVIDIA已公开提供模型参数、训练代码和数据集。这种开放获取方法允许来自世界各地的研究人员探索和扩展Evo 2的功能,加速整个科学界的创新。
结论
Evo 2是基因组建模的一个重大进步,使用AI解码生命的复杂遗传语言。其能够模拟DNA序列及其与RNA和蛋白质的相互作用,开启了医疗保健、药物发现、合成生物学和环境科学等领域的新可能性。Evo 2可以预测遗传突变并设计新的生物序列,具有变革性的潜力,用于个性化医学和可持续解决方案。然而,其计算复杂性带来了挑战,特别是对于较小的研究团队。通过使Evo 2开源,NVIDIA使世界各地的研究人员能够探索和扩展其功能,推动基因组学和生物技术的创新。随着技术的不断发展,它有可能重塑生物科学和环境可持续性的未来。












