人工智能

DeepMind 即将通过解决蛋白质折叠问题来改变生物科学

mm

谷歌的 AI 部门 DeepMind最近在解决生物学中最古老的挑战之一方面取得了重大进展,即从氨基酸序列计算蛋白质的形状。根据 Nature 的报道,这一突破有可能改变生物学和化学领域,使科学家能够确定许多目前仍然神秘的蛋白质的功能。

蛋白质的形状决定了其功能,大多数生物功能都依赖于蛋白质。蛋白质折叠是指将氨基酸链转化为三维结构的过程,这个过程使蛋白质能够执行其功能。如果科学家能够确定氨基酸序列和蛋白质形状之间的关系,他们就可以确定哪些蛋白质影响不同的生物过程。

科学家们假设人类蛋白质组中至少有 80,000 种蛋白质,但只有很小一部分蛋白质的结构已知。传统的确定蛋白质形状的方法可能需要多年的实验室实验,即使利用计算机科学算法和模型。DeepMind 的工作可以大大加快蛋白质结构的发现速度,能够可靠地在正常时间的很小一部分内确定蛋白质的结构。

DeepMind 的研究人员在一个包含约 170,000 个蛋白质序列和相应形状的数据库上训练了他们的算法。研究人员开发的算法是在 100 到 200 个 GPU 上训练的,训练过程需要几周才能完成。研究人员开发的模型被称为“AlphaFold”。

AlphaFold 通过“张力算法”运作,首先连接蛋白质的小片段,然后扩大到连接较大和较大的部分。首先将小的氨基酸簇连接在一起,然后算法尝试找到连接这些簇的方法。

AlphaFold 研究人员最初尝试使用传统的深度学习算法来预测氨基酸和蛋白质之间的关系。AlphaFold 然后为蛋白质创建了共识模型。当这种技术被证明具有太多限制时,研究人员尝试了一种新的策略。AlphaFold 研究团队创建了在更多特征上训练的模型,这次他们让模型返回蛋白质序列的最终结构预测。

工程团队通过将 AlphaFold 输入一个竞争中来测试其性能,在这个竞争中,计算机算法竞争确定蛋白质从氨基酸序列的结构。竞争是“蛋白质结构预测的关键评估”或 CASP。竞争的参与者被提供 100 个氨基酸序列,他们的模型必须确定这些蛋白质的结构。AlphaFold 不仅在准确性方面超过了其他计算机模型,而且其性能也与传统的实验室建模技术相当。AlphaFold 的最终中位数得分约为 100 分中的 92 分,而实验室实验方法被分配了 90 分。AlphaFold 的中位数得分在最难的蛋白质上下降到 87%。

根据 DeepMind 首席执行官和联合创始人 Demis Hassabis 的说法,公司已经计划让研究人员访问 AlphaFold,马克斯·普朗克发展生物学研究所的科学家已经使用该模型来发现他们已经研究了十多年的蛋白质结构。

欧洲生物信息研究所的主任 Janet Thornton 被 ScienceMag 引用说,DeepMind 的成就“将改变结构生物学和蛋白质研究的未来”。与此同时,马里兰大学谢迪格罗夫的生物学家 John Moult 说,他从来没有想到蛋白质折叠问题会在这个生命周期内得到解决。

虽然 AlphaFold 不太可能完全取代传统的实验方法来发现蛋白质结构,但它可能会大大增加蛋白质结构被发现的速度。研究人员可能需要较少的高质量实验数据来确定蛋白质结构,而且研究人员已经可以访问大量的基因组数据,这些数据可以使用 AlphaFold 的解决方案转化为结构。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。