AI 模型与平台

研究人员使用自然语言处理算法来理解蛋白质转化

发布于 2020年10月11日

更新于 2026年5月25日

作者

Daniel Nelson

马里兰大学的研究人员最近应用了自然语言处理技术和机器学习算法来深入了解蛋白质分子如何从一种形状转变为另一种形状。最近的论文发表在《自然通讯》杂志上，这是第一次使用人工智能算法来研究生物分子系统的动力学，特别是蛋白质的转化。

蛋白质分子可以呈现多种形状，但蛋白质从一种形状转变为另一种形状的机制仍然有些神秘。蛋白质分子的功能由其形状决定，了解影响蛋白质形状/结构的机制可以使科学家设计出有针对性的药物治疗和确定疾病的原因。

生物分子并不是静止的，它们不断地对环境中的事件做出反应。环境压力可以使分子突然转变为不同的形状，这个过程与弹簧的解开非常相似。分子的不同部分会展开和折叠，研究人员研究了分子不同形状之间的中间阶段。

根据Phys.org的报道，Pratyush Tiwary是论文的首席作者，他是马里兰大学化学和生物化学系以及物理科学和技术研究所的助理教授。Tiwary表示，自然语言处理可以用来模拟分子的转化和适应。他指出，分子有自己的“语言”，分子的运动可以被翻译成抽象的语言。当这种分子运动到语言模式的映射完成后，自然语言处理技术和人工智能算法可以用来“生成生物学上真实的故事”。

当分子从一种形状转变为另一种形状时，这个转变过程发生得非常快。转变过程可能只需要一万亿分之一秒。转变过程的速度之快使得科学家难以使用光谱法或甚至高功率显微镜等方法来确定哪些参数影响了蛋白质的展开过程。为了确定哪些参数影响蛋白质的展开，Tiwary和他的研究团队创建了模拟蛋白质的物理模型。复杂的统计模型被用来创建模拟蛋白质的运动、轨迹和形状。然后，这些模型被输入到一个基于自然语言处理方法的机器学习算法中。

用于训练机器学习系统的自然语言处理模型与Gmail使用的预测文本系统的算法相似。模拟的蛋白质被视为一种语言，其中分子的运动被翻译成“字母”。这些字母然后被连接起来形成单词和句子。机器学习算法可以学习蛋白质结构背后的语法和句法规则，确定哪些形状/运动跟随其他形状/运动。然后，算法可以被用来预测某些蛋白质如何解开以及它们将呈现什么形状。

研究人员使用了长短期记忆（LSTM）网络来分析基于蛋白质的句子。研究团队还跟踪了网络所依据的数学参数，当网络学习分子转化的动力学时。根据研究结果，网络使用的逻辑与一个称为路径熵的统计物理概念相似。如果这一发现成立，它可能会导致LSTM网络的改进。Tiwary解释说，这一发现揭开了LSTM的一些“黑盒”性质，让研究人员更好地理解可以调整哪些参数以获得最佳性能。

作为他们算法的测试案例，研究人员分析了一种叫做核糖开关的生物分子。核糖开关已经使用光谱法进行了分析，当使用机器学习系统分析核糖开关时，预测的核糖开关形式与光谱法发现的形式相符。

Tiwary希望他们的发现可以让研究人员开发出有针对性的药物，这些药物的副作用更少。正如Tiwary通过Phys.org解释的那样：

“你想要有强效的药物，它们只与你想要它们结合的东西结合。我们可以实现这一点，如果我们可以了解生物分子感兴趣的不同形状，因为我们可以制造出只与这些特定形状在适当的时间和我们想要的时间长度内结合的药物。”

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

研究人员使用自然语言处理算法来理解蛋白质转化

发现更多