医疗健康

人工智能用于识别基因激活序列和发现致病基因

mm

人工智能在基因组学领域发挥着越来越重要的作用。最近,来自加利福尼亚大学圣地亚哥分校的研究团队利用人工智能发现了一段DNA代码,这可能有助于控制基因激活。此外,来自澳大利亚国家科学组织CSIRO的研究人员使用人工智能算法分析了超过一万亿个基因数据点,推进了我们对人类基因组的理解,并通过定位特定的致病基因。

人类基因组和所有DNA由四种不同的化学基组成:腺苷、鸟嘌呤、胸腺嘧啶和胞嘧啶,分别用A、G、T和C表示。这些四种基因以不同的组合方式连接在一起,编码不同的基因。约有一quarter的所有人类基因由大约TATAAA的基因序列编码,具有轻微的变异。这些TATAAA衍生品构成了“TATA盒”,一种非编码DNA序列,在转录初始化中发挥作用。然而,剩余的约75%的人类基因组如何被激活仍然不清楚,主要是由于可能的基序组合数量过大。

根据ScienceDaily报道,来自UCSD的研究人员已经成功识别了一种DNA激活代码,其使用频率与TATA盒激活相同,这得益于他们使用人工智能。研究人员将这种DNA激活代码称为“下游核心启动子区域”(DPR)。根据论文的首席作者、UCSD生物科学教授James Kagonaga的说法,DPR的发现揭示了我们基因中约有一quarter到三分之一是如何被激活的。

Kadonaga最初在1996年与果蝇合作时发现了一段与DPR部分相对应的基因激活序列。从那时起,Kadonaga和他的同事一直致力于确定哪些DNA序列与DPR活动相关。研究团队首先创建了五十万个不同的DNA序列,并确定哪些序列显示出DPR活动。然后,他们使用大约二十万个DNA序列来训练一个人工智能模型,该模型可以预测DPR活动是否会出现在人类DNA的某些部分。据报道,该模型非常准确。Kadonaga描述了该模型的性能为“荒谬地好”和“不可思议”。创建该模型的过程被证明如此可靠,以至于研究人员最终创建了另一个专注于发现新的TATA盒出现的AI。

在未来,人工智能可能被用来分析DNA序列模式,并为研究人员提供更多关于基因激活在人类细胞中发生的方式的见解。Kadonaga相信,就像人工智能帮助他的研究团队识别DPR一样,人工智能也将帮助其他科学家发现重要的DNA序列和结构。

在人工智能用于探索人类基因组的另一个应用中,根据MedicalExpress报道,来自澳大利亚国家科学机构CSIRO的研究人员使用了一种名为VariantSpark的AI平台来分析超过一万亿个基因数据点。希望这种基于AI的研究能够帮助科学家确定某些疾病相关基因的位置。

传统的分析遗传特征的方法可能需要几年时间,但是CSIRO生物信息学负责人Denis Bauser博士解释说,人工智能有可能大大加快这一过程。VariantSpark是一种可以分析诸如对某些疾病的易感性等特征并确定哪些基因可能影响它们的AI平台。Bauer和其他研究人员使用VariantSpark分析了一个包含大约十万个个体的合成数据集,只需15小时。VariantSpark分析了超过一万亿个基因数据点中的一千万个变体,这是一项传统方法即使使用最快的计算机也需要几千年才能完成的任务。

CSIRO澳大利亚电子健康研究中心CEO David Hansin博士通过MedicalExpress解释说:

“尽管最近在全基因组测序研究中取得了技术突破,但复杂疾病的分子和遗传起源仍然不太清楚,这使得预测、应用适当的预防措施和个性化治疗变得困难。”

Bauer相信,VariantSpark可以扩大到人口水平的数据集,并有助于确定基因在心血管疾病和神经疾病发展中的作用。这样的工作可能会导致早期干预、个性化治疗和更好的健康结果。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。