人工智能

AI 研究人员开发可解释的神经网络以发现基因组规则

发布于 2021年2月22日

更新于 2026年5月25日

作者

Daniel Nelson

一组研究人员最近创建了一个可解释的神经网络，旨在帮助生物学家揭示人类基因组代码中神秘的规则。研究团队在蛋白质-DNA 相互作用地图上训练了一个神经网络，使得 AI 能够发现如何某些 DNA 序列调控某些基因。研究人员还使得模型可解释，这样他们就可以分析模型的结论并确定如何序列_motif 调控基因。

生物学中一个大的谜团是基因组的调控代码。已知 DNA 由四个核苷酸碱基组成 – 腺苷、鸟苷、胸腺嘧啶和胞嘧啶 – 但不知道这些碱基对如何被用来调控活动。四个核苷酸碱基编码了构建蛋白质的指令，但它们也控制基因在哪里和如何表达（它们如何在生物体中制造蛋白质）。特定的碱基组合和排列创建了调控代码的部分，这些部分与 DNA 片段结合，但不知道这些组合是什么。

一个由计算机科学家和生物学家组成的跨学科团队出发来解决这个谜团，创建了一个可解释的神经网络。研究团队创建了一个名为“碱基对网络”或“BPNet”的神经网络。BPNet 使用的模型可以被解释以识别调控代码。这是通过预测称为转录因子的蛋白质如何与 DNA 序列结合来实现的。

研究人员进行了各种实验和全面计算机建模，以确定转录因子和 DNA 如何结合，开发了一个详细的地图，直到个别核苷酸碱基水平。详细的转录因子-DNA 表示允许研究人员创建能够解释关键 DNA 序列模式和作为调控代码的规则的工具。

斯坦福大学的生物学家和计算研究员 Julia Zeitlinger 博士解释说，从可解释的神经网络中收集的结果与现有的实验结果一致，但也包含了关于基因组调控代码的惊人见解。例如，AI 模型允许研究团队发现一个影响称为 Nanog 的转录因子工作的规则。当多个 Nanog_motif 实例出现在同一侧的 DNA 双螺旋上时，它们会合作结合到 DNA 上。正如 Zeitlinger 通过 ScienceDaily 解释的那样：

“已经有大量的实验证据表明，调控代码中有时存在这种_motif 周期。但是，确切的环境一直难以捉摸，Nanog 也不是嫌疑人。发现 Nanog 具有这种模式，并看到其相互作用的更多细节，令人惊讶，因为我们没有专门寻找这种模式。”

最近的研究论文并不是第一次使用 AI 分析 DNA 的研究，但它可能是第一次打开 AI 的“黑箱”以确定哪些 DNA 序列调控基因组中的基因。神经网络擅长在数据中找到模式，但很难从它们创建的模型中提取这些见解。通过创建一种分析模型认为哪些特征对预测基因组规则很重要的方法，研究人员可以训练更细致的模型，从而带来新的发现。

BPNet 的架构与用于识别图像中面部的网络类似。当计算机视觉系统在图像中识别面部时，网络首先检测边缘，然后将这些边缘连接起来。不同之处在于，BPNet 从 DNA 序列中学习，检测序列_motif，然后将这些_motif 连接起来，形成可以用来预测数据在碱基分辨率下的结合的更高阶规则。

在模型达到高准确率阈值后，模型学习的模式被追溯到原始输入序列，揭示了序列_motif。最后，模型被提供了系统的 DNA 序列查询，允许研究人员了解序列_motif 如何组合和发挥作用。根据 Zeitlinger 的说法，模型能够预测的序列比研究人员在传统实验中能够测试的要多得多。另外，预测实验异常的结果使研究人员能够确定哪些实验在验证模型时最具信息量。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

AI 研究人员开发可解释的神经网络以发现基因组规则

发现更多