人工智能
人工智能模拟了5亿年进化过程,并创造了新的蛋白质!
进化已经在分子水平上精细地调节了生命数十亿年。蛋白质,生命的基本构建块,已经通过这个过程演化,以执行各种生物功能,从抵抗感染到消化食物。这些复杂的分子由长链的氨基酸组成,按照精确的序列排列,决定了它们的结构和功能。虽然自然界已经产生了令人惊叹的蛋白质多样性,但了解它们的结构和设计全新的蛋白质一直是科学家面临的复杂挑战。
人工智能的最新进展正在改变我们解决生物学中一些最重要挑战的能力。以前,人工智能被用于预测给定的蛋白质序列如何折叠和表现——由于可能的配置数量巨大,这是一个复杂的挑战。最近,人工智能已经发展到可以在前所未有的规模上生成全新的蛋白质。这个里程碑是由EvolutionaryScale设计的多模态生成语言模型ESM3实现的。与传统的为文本处理设计的人工智能系统不同,ESM3被训练来理解蛋白质序列、结构和功能。它真正令人惊叹的是其模拟5亿年进化的能力——这是一项以前从未见过的壮举,已经导致了一个完全新的荧光蛋白的产生,这是自然界中从未见过的东西。
这个突破是使生物学更加可编程的重要一步,开启了设计定制蛋白质的新可能性,应用领域包括医学、材料科学等。在这篇文章中,我们将探讨ESM3的工作原理、它的成就以及为什么这个进步正在重塑我们对生物学和进化的理解。
认识ESM3:模拟进化的人工智能
ESM3是一个多模态语言模型,通过分析蛋白质序列、结构和功能来理解和生成蛋白质。与AlphaFold不同,后者可以预测现有蛋白质的结构,ESM3本质上是一个蛋白质工程模型,允许研究人员指定功能和结构要求来设计全新的蛋白质。
该模型对蛋白质序列、结构和功能有深入的了解,并具有通过与用户交互来生成蛋白质的能力。这种功能使模型能够生成可能在自然界中不存在但仍然具有生物活性的蛋白质。创建一个新的绿色荧光蛋白(esmGFP)是这一能力的惊人展示。荧光蛋白最初是在水母和珊瑚中发现的,广泛用于医学研究和生物技术。为了开发esmGFP,研究人员为ESM3提供了已知荧光蛋白的关键结构和功能特征。然后,模型通过应用链式思维推理方法来优化序列。虽然自然进化可能需要数百万年才能产生类似的蛋白质,但ESM3可以在几天或几周内加速这一过程。
人工智能驱动的蛋白质设计过程
以下是研究人员使用ESM3开发esmGFP的步骤:
- 提示人工智能 – 首先,他们输入序列和结构提示来引导ESM3朝着与荧光相关的特征。
- 生成新蛋白质 – ESM3探索了大量潜在序列的空间,以产生数千个候选蛋白质。
- 过滤和优化 – 最有前途的设计被过滤和合成用于实验室测试。
- 在活细胞中验证 – 选定的AI设计蛋白质在细菌中表达,以确认其荧光和功能性。
该过程已经导致了一种荧光蛋白(esmGFP)的产生,这种蛋白质在自然界中是不存在的。
esmGFP与自然蛋白质的比较
esmGFP之所以非凡,是因为它与已知的荧光蛋白有多么大的差异。虽然大多数新发现的GFP都与现有的GFP有轻微的变异,但esmGFP与其最接近的自然亲属只有58%的序列同一性。从进化的角度来看,这种差异对应于超过5亿年的分化时间。
为了更好地理解这一点,最后一次出现具有类似进化距离的蛋白质时,恐龙尚未出现,多细胞生命仍处于早期阶段。这意味着人工智能不仅加速了进化,而且模拟了一个全新的进化途径,产生了自然界可能永远不会创造的蛋白质。
为什么这一发现很重要
这一进展是蛋白质工程的一个重大步骤,并加深了我们对进化的理解。通过在几天内模拟数百万年的进化,人工智能正在为我们打开令人兴奋的新可能性的大门:
- 更快的药物发现:许多药物通过针对特定的蛋白质来发挥作用,但找到合适的蛋白质是一个缓慢而昂贵的过程。人工智能设计的蛋白质可以加速这一过程,帮助研究人员更高效地发现新治疗方法。
- 生物工程中的新解决方案:蛋白质被用于从分解塑料废物到检测疾病的所有领域。有了人工智能驱动的设计,科学家可以为医疗保健、环境保护甚至新材料创建定制蛋白质。
- 人工智能作为进化模拟器:这一研究最令人着迷的方面之一是,它将人工智能定位为进化的模拟器,而不仅仅是一个分析工具。传统的进化模拟涉及迭代遗传突变,通常需要数月或数年才能生成可行的候选者。ESM3通过直接预测功能蛋白质来绕过这些缓慢的约束。这一方法的转变意味着人工智能不仅可以模拟进化,还可以积极探索超出自然界的进化可能性。只要有足够的计算能力,人工智能驱动的进化就可以揭示以前在自然界中不存在的新生物化学特性。
伦理考虑和负责任的人工智能开发
虽然人工智能驱动的蛋白质工程的潜在益处是巨大的,但这项技术也引发了伦理和安全问题。当人工智能开始设计超出人类理解的蛋白质时会发生什么?我们如何确保这些蛋白质对医疗或环境使用是安全的?
我们需要专注于负责任的人工智能开发和彻底的测试来解决这些问题。像esmGFP这样的AI生成蛋白质应该在被考虑用于现实世界应用之前经过广泛的实验室测试。此外,正在开发人工智能驱动生物学的伦理框架,以确保透明度、安全性和公众信任。
结论
ESM3的推出是生物技术领域的一个重要发展。ESM3证明了进化不应该是一个缓慢的试错过程。将5亿年蛋白质进化压缩到几天之内,开启了一个未来,科学家可以以惊人的速度和准确性设计全新的蛋白质。ESM3的发展意味着我们不仅可以使用人工智能来理解生物学,还可以重塑它。这一突破帮助我们推进了编程生物学的能力,就像我们编程软件一样,解锁了我们刚刚开始想象的可能性。












