医疗健康
像Netflix这样的公司使用的算法可以解读神经退行性疾病的生物语言

像Netflix、Facebook和Amazon这样的公司使用的强大算法可能会在医疗保健领域产生重大影响。它们已经证明了能够预测癌症和其他神经退行性疾病(如阿尔茨海默病)的生物语言的能力。
这一举措由剑桥大学圣约翰学院的学者们发起,他们将几十年来产生的大数据输入到计算机语言模型中。目标是为了看看人工智能(AI)是否能够比人类做出更先进的发现,他们发现这项技术能够解读生物语言。
该研究发表在科学期刊PNAS,题为“从序列决定因素和嵌入学习蛋白凝集的分子语法。”根据专家说,这可以用来“纠正细胞内引起疾病的语法错误”。
图马斯·诺尔斯教授是论文的首席作者,也是圣约翰学院的研究员。
“将机器学习技术引入神经退行性疾病和癌症的研究是一个绝对的游戏规则改变者。最终,目标将是使用人工智能开发有针对性的药物,以大幅度缓解症状或完全预防痴呆的发生。”
强大的算法
像Netflix和Facebook这样的公司使用的机器学习算法可以对消费者和他们接下来会做什么做出非常有根据的预测。这就是为什么Netflix会推荐新电影,Facebook会推荐新朋友的原因。像Alexa和Siri这样的语音助手可以立即识别个体并做出响应。
卡迪·利斯·萨尔博士是论文的第一作者,也是圣约翰学院的研究员。她使用了类似的技术来训练一个大规模的语言模型,旨在确定疾病中蛋白质发生了什么变化。
“人体中有成千上万种蛋白质,科学家们尚未了解其中许多蛋白质的功能。我们要求一个基于神经网络的语言模型来学习蛋白质的语言,”她说。
“我们特别要求程序来学习变形生物分子凝集的语言——细胞中发现的蛋白质液滴——科学家们真正需要了解这些,以破解生物功能和功能障碍的语言,这些功能障碍会导致癌症和神经退行性疾病,如阿尔茨海默病。我们发现它可以在没有明确指示的情况下学习科学家们在几十年的研究中已经发现的关于蛋白质语言的内容。”
科学家们认为,有几百种神经退行性疾病,其中最常见的是阿尔茨海默病、帕金森病和亨廷顿病。阿尔茨海默病影响着全球5,000万人,在疾病过程中,蛋白质会形成凝块并杀死健康的神经细胞。
蛋白质凝集和NLP技术
在健康的大脑中,这些蛋白质团块可以被有效地清除。根据最近的发现,科学家们现在认为,一些无序蛋白质会形成凝集,形成液滴状的蛋白质团块。这些团块没有膜,可以自由地与其他团块融合,并且可以形成和重组。
“蛋白质凝集最近在科学界引起了大量关注,因为它们控制了细胞中的关键事件,例如基因表达——我们的DNA如何转化为蛋白质——以及蛋白质合成——细胞如何制造蛋白质,”诺尔斯教授说。
“与这些蛋白质液滴相关的任何缺陷都可能导致癌症等疾病。这就是为什么将自然语言处理技术引入蛋白质功能障碍的分子起源研究中至关重要,如果我们希望能够纠正细胞内引起疾病的语法错误,”他继续说。
“我们将所有已知蛋白质的数据输入到算法中,以便它可以学习和预测蛋白质的语言,就像这些模型学习人类语言和WhatsApp如何建议您使用的单词一样,”萨尔博士说。
“然后我们可以问它关于导致某些蛋白质在细胞内形成凝集的特定语法。这是一个非常具有挑战性的问题,解开它将帮助我们了解疾病语言的规则,”萨尔博士继续说。
这一技术进步的主要驱动力是可用数据的增加、计算能力的提高和技术进步。机器学习有可能以以前无法预测的方式彻底改变这些领域的研究,实现新的发现。
根据萨尔博士的说法,“机器学习可以摆脱研究人员认为是科学探索目标的限制,它将意味着新的联系将被发现,这些联系我们甚至还没有想到。它确实非常令人兴奋。”
新的网络对世界各地的研究人员开放,越来越多的科学家正在参与其中。












