人工智能
研究人员使用自然语言处理算法来理解蛋白质转化

马里兰大学的研究人员最近将自然语言处理技术和机器学习算法应用于了解蛋白质分子如何从一种形状转变为另一种形状。最近的论文发表在《自然通讯》杂志上,这是第一次使用人工智能算法来研究生物分子系统的动力学,特别是蛋白质的转化。
蛋白质分子可以呈现多种形态,但蛋白质从一种形态转变为另一种形态的机制仍然有些神秘。蛋白质分子的功能由其形状决定,了解影响蛋白质形状/结构的机制可以使科学家设计出有针对性的药物治疗和确定疾病的原因。
生物分子并不是静止的,它们会不断地对环境中的事件做出反应。环境压力可以使分子转变为不同的形态,通常这种转变发生得非常突然。一个分子可以突然重新折叠成一个完全不同的结构,这个过程与弹簧的解开非常相似。分子的不同部分会展开和折叠,研究人员研究了不同分子形态之间的中间阶段。
根据Phys.org的报道,Pratyush Tiwary是论文的首席作者,他是马里兰大学化学和生物化学系以及物理科学和技术研究所的助理教授。根据Tiwary的说法,自然语言处理可以用来模拟分子的转化和适应。Tiwary指出,分子有自己的“语言”,分子的运动可以被翻译成抽象的语言。当这种将分子运动映射到语言模式的过程被执行时,自然语言处理技术和人工智能算法可以用来“从生成的抽象单词中生成生物学上真实的故事”。
当一个分子从一种形态转变为另一种形态时,这种转变发生得非常快。这种转变可能只需要一万亿分之一秒。转变的速度之快使得科学家难以使用光谱法或甚至高功率显微镜等方法来确定哪些参数影响蛋白质的展开过程。为了确定哪些参数影响蛋白质的展开,Tiwary和其他研究人员创建了模拟蛋白质的物理模型。使用复杂的统计模型创建了模拟蛋白质的模拟,这些模拟模拟了分子的形状、轨迹和运动。然后,将这些模型提供给基于自然语言处理方法的机器学习算法。
用于训练机器学习系统的自然语言处理模型与Gmail使用的预测文本系统中的算法类似。模拟的蛋白质被视为一种语言,其中分子的运动被翻译成“字母”。这些字母然后被连接起来形成单词和句子。机器学习算法可以学习蛋白质结构背后的语法和句法规则,确定哪些形状/运动跟随其他形状/运动。然后,可以使用这些算法来预测某些蛋白质如何解开以及它们将呈现哪些形状。
研究人员使用长短期记忆(LSTM)网络来分析基于蛋白质的句子。研究团队还跟踪了网络所基于的数学,监测网络学习分子转化动力学时的参数。根据研究结果,网络使用的逻辑类似于一种称为路径熵的统计物理概念。如果这一发现保持一致,它可能会导致LSTM网络的改进。Tiwary解释说,这一发现揭开了LSTM的一些黑盒性质,使研究人员能够更好地理解可以调整哪些参数以获得最佳性能。
作为他们算法的测试用例,研究人员分析了一种称为核糖开关的生物分子。核糖开关已经使用光谱法进行了分析,当使用机器学习系统分析核糖开关时,预测的核糖开关形式与光谱法发现的形式相匹配。
Tiwary希望他们的发现能够让研究人员开发出副作用较少的靶向药物。正如Tiwary通过Phys.org解释的那样:
“您希望拥有强效的药物,它们可以与目标结合得很紧密,但只与您想要它们结合的目标结合。我们可以实现这一点,如果我们可以了解生物分子感兴趣的不同形式,因为我们可以制造出只与其中一种特定形式在适当的时间和我们想要的时间内结合的药物。”




