
-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature Genetics》仅基于DNA序列就能预测其调控作用和3D结构
【字体: 大 中 小 】 时间:2022年08月09日 来源:Nature Genetics
编辑推荐:
最近发表的两项研究表明,新开发的人工智能(AI)程序仅基于DNA的原始序列,就准确预测了DNA的调控元件和三维结构的作用。该研究的作者说,这些工具最终可能揭示基因突变如何导致疾病,并可能导致对基因序列如何影响细胞核中染色体DNA的空间组织和功能的新理解。
预测的人类基因组DNA片段的3D结构
最新的两项研究表明,新开发的人工智能(AI)程序仅基于DNA的原始序列就准确预测了DNA的调控元件和三维结构的作用。该研究的作者说,这些工具最终可能揭示基因突变如何导致疾病,并可能导致对基因序列如何影响细胞核中染色体DNA的空间组织和功能的新认识。
综合来看,这两个项目提供了一个更完整的图像,展示了DNA序列的变化,甚至是非编码区域,如何对其空间组织和功能产生显著影响。
只有大约1%的人类DNA编码制造蛋白质的指令。近几十年的研究表明,大部分剩余的非编码遗传物质包含调控元件,如启动子、增强子、沉默子和绝缘子,这些调控元件控制编码DNA的表达方式。Jian Zhou博士解释说,序列是如何控制这些调控元件的大部分功能的,目前还不清楚。
为了更好地理解这些调控成分,他和普林斯顿大学以及熨烙铁研究所的同事开发了一个名为Sei的深度学习模型,该模型可以将这些非编码DNA片段精确地分类为40个“序列类”或工作——例如,作为干细胞或脑细胞基因活动的增强剂。这40个序列类,利用以前研究基因组调控的近22000个数据集开发,覆盖了97%以上的人类基因组。此外,Sei可以通过其在每40个序列类中的预测活性对任何序列进行评分,并预测突变如何影响这些活动。
通过将Sei应用于人类遗传学数据,研究人员能够描述英国生物银行数据库中记录的47种性状和疾病的调控架构,并解释调控元件的突变如何导致特定的病理。这种能力可以帮助获得更系统的理解基因组序列的变化是如何与疾病和其他性状相联系的。研究结果于本月发表。
今年5月,Zhou博士报告了另一种名为Orca的工具的开发,该工具可以根据染色体的序列预测DNA的3D结构。利用现有的DNA序列数据集和先前研究中揭示的分子折叠、扭曲和弯曲的结构数据,周博士训练模型进行连接,并评估模型在不同长度尺度上预测结构的能力。
研究结果表明,Orca基于它们的序列可以高精度地预测大小DNA结构,包括携带与各种健康状况(包括一种白血病和肢体畸形)相关的突变的序列。虎鲸也让研究人员对DNA序列如何控制其局部和大规模的3D结构产生了新的假设。
Zhou博士说,他和他的同事们计划利用Sei和Orca,这两种基因在网络服务器上都是公开的,也是开源的代码,来进一步探索基因突变在导致疾病的分子和物理表现方面的作用——这项研究可能最终导致治疗这些疾病的新方法。