医疗保健
人工智能用于识别基因激活序列并寻找致病基因

人工智能每天都在基因组科学中发挥着越来越大的作用。 最近,加州大学圣地亚哥分校的一组研究人员利用人工智能发现了一种 DNA 代码,可以为控制基因激活铺平道路。 此外,澳大利亚国家科学组织 CSIRO 的研究人员利用人工智能算法分析了超过一万亿个遗传数据点,通过定位特定的致病基因,增进了我们对人类基因组的理解。
人类基因组和所有 DNA 均包含四种不同的化学碱基:腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶,分别缩写为 A、G、T 和 C。 这四个碱基以各种组合连接在一起,编码不同的基因。 大约四分之一的人类基因是由大致为 TATAAA 的基因序列编码的,有轻微的变异。 这些 TATAAA 衍生物包括“塔塔盒子”,非编码 DNA 序列,在由 TATA 组成的基因转录初始化中发挥作用。然而,由于存在大量可能的碱基序列组合,目前尚不清楚人类基因组的其他大约 75% 是如何被激活的。
据《科学日报》报道加州大学圣地亚哥分校的研究人员利用人工智能,成功识别出与 TATA 盒子激活一样频繁使用的 DNA 激活码。 研究人员将 DNA 激活码称为“下游核心启动子区域”(DPR)。 详细介绍这些发现的论文的资深作者、加州大学圣地亚哥分校生物科学教授 James Kagonaga 表示,DPR 的发现揭示了我们四分之一到三分之一的基因是如何被激活的。
Kadonaga 在 1996 年对果蝇进行研究时最初发现了与 DPR 部分相对应的基因激活序列。从那时起,Kadonaga 及其同事一直致力于确定哪些 DNA 序列与 DPR 活性相关。 研究小组首先创建了 200,000 万个不同的 DNA 序列,并确定哪些序列显示出 DPR 活性。 大约 XNUMX 个 DNA 序列被用来训练人工智能模型,该模型可以预测人类 DNA 块中是否会出现 DPR 活动。 据报道,该模型非常准确。 Kadonaga 将该模型的性能描述为“好得离谱”,其预测能力“令人难以置信”。 事实证明,用于创建模型的过程非常可靠,研究人员最终创建了一个类似的人工智能,专注于发现新的 TATA 框出现。
未来,人工智能可以用来分析 DNA 序列模式,让研究人员更深入地了解基因激活在人类细胞中是如何发生的。 Kadonaga 认为,就像人工智能能够帮助他的研究团队识别 DPR 一样,人工智能也将帮助其他科学家发现重要的 DNA 序列和结构。
在人工智能探索人类基因组的另一种用途中, 据 MedicalExpress 报道澳大利亚 CSIRO 国家科学机构的研究人员使用名为 VariantSpark 的人工智能平台来分析超过 1 万亿点的基因组数据。 希望基于人工智能的研究能够帮助科学家确定某些与疾病相关的基因的位置。
分析遗传特征的传统方法可能需要数年时间才能完成,但正如 CSIRO 生物信息学负责人 Denis Bauser 博士所解释的那样,人工智能有可能大大加速这一过程。 VarianSpark 是一个人工智能平台,可以分析对某些疾病的易感性等特征,并确定哪些基因可能影响这些特征。 Bauer 和其他研究人员利用 VariantSpark 在短短 100,000 小时内分析了约 15 人的综合数据集。 VariantSpark 分析了 XNUMX 万亿个基因组数据点的超过 XNUMX 万个变体,即使是使用传统方法最快的竞争对手也需要数千年才能完成这项任务。
正如 CSIRO 澳大利亚电子健康研究中心首席执行官 David Hansin 博士所解释的 通过医疗快递:
“尽管最近全基因组测序研究取得了技术突破,但对复杂疾病的分子和遗传起源仍然知之甚少,这使得预测、应用适当的预防措施和个性化治疗变得困难。”
Bauer 认为,VariantSpark 可以扩展到人群水平的数据集,并帮助确定基因在心血管疾病和神经元疾病发展中所发挥的作用。 此类工作可以带来早期干预、个性化治疗和总体上更好的健康结果。








