关注我们.

人工智能

人工智能研究人员开发可解释的神经网络来发现基因组规则

mm

一组研究人员最近 创建了一个可解释的神经网络 旨在帮助生物学家揭示控制人类基因组代码的神秘规则。 研究小组在蛋白质-DNA 相互作用图谱上训练了一个神经网络,使人工智能能够发现某些 DNA 序列如何调节某些基因。 研究人员还使模型变得可解释,以便他们可以分析模型的结论并确定如何对调节基因的基序进行测序。

生物学的一大谜团是基因组的调控密码。 众所周知,DNA 由四种核苷酸碱基组成——腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶——但尚不清楚这些碱基对如何用于调节活性。 四个核苷酸碱基编码构建蛋白质的指令,但它们也控制基因表达的位置和方式(它们如何在生物体中制造蛋白质)。 碱基的特定组合和排列会产生与 DNA 片段结合的调控代码片段,但这些组合到底是什么尚不清楚。

一个由计算机科学家和生物学家组成的跨学科团队着手通过创建一个可解释的神经网络来解开这个谜团。 研究团队创建了一个神经网络,他们将其称为“碱基对网络”或“BPNet”。 BPNet 用于生成预测的模型可以解释为识别监管代码。 这是通过预测称为转录因子的蛋白质如何与 DNA 序列结合来实现的。

研究人员进行了各种实验并进行了全面的计算机建模,以确定转录因子和 DNA 是如何结合在一起的,从而绘制出详细至单个核苷酸碱基水平的图谱。 详细的转录因子-DNA 表示使研究人员能够创建能够解释关键 DNA 序列模式和充当监管代码的规则的工具。

斯坦福大学生物学博士兼计算研究员 Julia Zeitlinger 解释说,从可解释的神经网络收集的结果与现有的实验结果相吻合,但它们也包含了对基因组调控代码的令人惊讶的见解。 举例来说,人工智能模型使研究团队发现了一条影响称为 Nanog 的转录因子如何运作的规则。 当 DNA 双螺旋的同一侧存在多个 Nanog 基序时,它们会协同结合到 DNA 上。 正如泽特林格解释的那样 通过《科学日报》:

“大量实验证据表明,监管代码中有时存在这种主题周期性。 然而,具体情况难以捉摸,纳诺格并不是嫌疑人。 发现 Nanog 具有这样的模式,并看到其相互作用的更多细节,令人惊讶,因为我们没有专门寻找这种模式。”

最近的研究报告 这远不是第一个使用人工智能分析 DNA 的研究,但它可能是第一个打开人工智能“黑匣子”来辨别哪些 DNA 序列调节基因组中基因的研究。 神经网络擅长发现数据中的模式,但很难从它们创建的模型中提取它们的见解。 通过创建一种方法来分析模型认为哪些特征对基因组规则的预测很重要,研究人员可以训练更细致的模型,从而带来新的发现。

BPNet 的架构类似于用于识别图像中人脸的网络。当计算机视觉系统识别图像中的人脸时,网络首先检测边缘,然后将这些边缘连接在一起。不同之处在于 BPNet 从 DNA 序列中学习,检测序列基序并将这些基序连接到可用于预测碱基分辨率数据结合的高阶规则中。

当模型达到高精度阈值后,模型学习到的模式将追溯到原始输入序列,从而揭示序列图案。 最后,该模型提供了系统的DNA序列查询,让研究人员了解序列基序的组合和功能的规则。 根据 Zeitlinger 的说法,该模型能够预测的序列比研究人员希望以传统的实验方式测试的序列要多得多。 此外,通过预测实验异常的结果,研究人员可以确定哪些实验在验证模型时信息最丰富。

博主和程序员,擅长 机器学习 深度学习 主题。 丹尼尔希望帮助其他人利用人工智能的力量造福社会。