四分之三的DNA序列如何被激活?Nature新论文报道人工智能获得的重要突破

【字体: 时间:2020年09月10日 来源:生物通

编辑推荐:

  机器学习可实现期待已久的代码突破,并应用于生物医学中

  

科学家们早就知道,人类基因会依照我们DNA的精确顺序传递的指令付诸行动,这些指令由四种不同类型的单个的碱基分别编码:A,C,G和T。

众所周知,将近25%的基因被类似于TATAAA的序列(称为“ TATA框”)转录,那其它75%的基因是如何开启的呢?这依然是一个谜。

最新一项研究中,加州大学圣地亚哥分校的研究人员确定了一种DNA激活码,他们称其为下游核心启动子区域(downstream core promoter region,DPR),这一发现最终可用于控制生物技术和生物医学应用中的基因激活。

相关成果公布在9月9日的Nature杂志上。

文章深作者James T. Kadonaga说:“DPR的鉴定揭示了激活我们大约四分之一至三分之一基因的关键步骤。DPR一直是一个谜,它是否甚至存在于人类中一直存在争议。幸运的是,我们已经能够通过使用机器学习解决这个难题。”

1996年,Kadonaga及其同事在果蝇中发现了一种新的基因激活序列,称为DPE(DPR的一部分),该序列可使基因在没有TATA框的情况下被打开。之后在1997年,他们在人类中发现了一个类似DPE的序列。但是,从那时起,对人类DPE的细节和流行程度的解读就变得扑朔迷离。最惊人的是,在成千上万的人类基因中仅发现了两个或三个活跃的DPE样序列。

20多年后,为了解答这个谜题,Kadonaga与博士后学者Long Vo ngoc,Cassidy Yunyun Huang,Jack Cassidy(已退休的计算机科学家)合作利用强大的人工智能工具得到了答案。

研究人员汇集了500,000个随机版本的DNA序列,并对每个序列的DPR活性进行了评估。从那里开始,使用200,000个版本创建可以准确预测人类DNA中DPR活性的机器学习模型。

结果正如Kadonaga所描述的那样,“非常好”。他们创建了类似的机器学习模型,作为识别TATA框序列的新方法。他们用成千上万的测试评估了新模型,其中的TATA盒和DPR结果是已知的,而且研究人员发现其预测能力是“令人难以置信的”。

这些结果清楚地揭示了人类基因中DPR基序的存在。此外,DPR的出现频率似乎与TATA盒的发生频率相当。研究人员观察到了DPR和TATA之间的有趣双重性——用TATA框序列激活的基因缺少DPR序列,反之亦然。

Kadonaga指出,在TATA框序列中找到6个碱基很简单。在19个基准点上,破解DPR的代码更具挑战性。

“找不到DPR,因为它没有明显的序列模式。在DNA序列中存在被加密的隐藏信息,使其成为活跃的DPR元素。机器学习模型可以解密该代码,但是我们人类却不能。”

展望未来,将人工智能进一步用于分析DNA序列模式应会提高研究人员对人细胞中基因激活的理解和控制能力。 Kadonaga说,这种知识可能对生物技术和生物医学领域有用。

“机器学习使我们能够识别DPR,相关的人工智能方法可能对研究其他重要的DNA序列基序很有用。许多无法解释的事情现在可以解释了。”

(生物通:万纹)

原文标题:

Identification of the human DPR core promoter element using machine learning



相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:TATA框|DPR|DPE|

  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号