基于高通量测序数据增强R-loop预测:揭示哺乳动物细胞类型特异性调控新机制

【字体: 时间:2025年06月12日 来源:NAR Genomics and Bioinformatics 4.0

编辑推荐:

  本研究针对现有R-loop预测方法仅依赖DNA序列特性、无法捕捉细胞类型特异性的局限,开发了整合高通量测序特征与序列信息的机器学习模型。通过分析人类HEK293、K562和HeLa细胞系数据,发现转录组(RNA-seq)、染色质可及性(DNase-seq)和组蛋白标记(H3K36me3)最具预测价值。该模型成功生成与实验数据高度一致的虚拟R-loop图谱,并能推广至小鼠等哺乳动物系统,为51种细胞类型提供了首个细胞类型特异性R-loop预测资源。

  

在生命科学领域,R-loop这种由RNA-DNA杂交体和单链DNA组成的三链结构,犹如基因组中的"双刃剑"。它们既参与基因调控、免疫重组等生理过程,又可能引发基因组不稳定和疾病。尽管S9.6抗体和RNase H1等测序技术已实现全基因组R-loop定位,但现有计算方法仅依赖GC偏斜、G四链体等序列特征,无法反映不同细胞状态下的动态变化。这种局限性严重阻碍了对R-loop在发育和疾病中作用机制的深入理解。

西班牙塞维利亚Pablo de Olavide大学的研究团队在《NAR Genomics and Bioinformatics》发表创新研究,首次将机器学习与多组学数据结合,构建了能预测细胞类型特异性R-loop的算法体系。研究人员整合了12种高通量测序数据(包括ChIP-seq、GRO-seq等)和两种序列预测工具(deepRloopPre和QmRLFS-finder),通过随机森林等九种算法训练模型。关键发现显示,转录活性(RNA-seq)、染色质开放状态(DNase-seq)和基因体标记H3K36me3最具预测力,模型在交叉验证中AUC值高达0.99。

技术方法上,研究采用ENCODE计划的人类和小鼠组学数据,使用Bowtie和STAR进行序列比对,通过MACS等三种算法识别R-loop峰,并利用k-means聚类区分不同技术检测的R-loop亚型(Class I/II)。机器学习特征矩阵包含6000个实验验证的R-loop区域和同等数量的随机对照区域。

研究结果部分呈现四大发现:

  1. 模型性能卓越:在"HEK293-K562预测HeLa"的跨细胞系验证中,XGBoost和随机森林等模型F1-score达85.1-96.4,显著优于传统方法。如图1B所示,GRO-seq和RNA-seq贡献了主要预测权重。

  1. 技术兼容性强:如图2D所示,模型对DRIP-seq(Class II R-loop)和MapR(Class I R-loop)检测位点均能准确预测,概率中位数分别为0.83和0.65,但对CUT&Tag技术检测位点敏感性较低(0.46-0.47)。

  2. 跨物种适用性:在小鼠E14干细胞和3T3成纤维细胞中,预测与实验数据的重叠率达56-59%,远超deepRloopPre(34-35%)和QmRLFS-finder(19-20%)。图3A显示预测成功捕获E14特异性R-loop位点。

  3. 生物学意义显著:差异预测位点关联的基因富集分析揭示,3T3细胞中R-loop与肌肉发育相关,而E14细胞中则富集于膜运输调控通路(图3E),证实模型可捕捉细胞类型特异性。

讨论部分强调,该研究突破性地将序列特征与表观遗传信息结合,解决了传统方法无法反映R-loop动态调控的核心问题。虽然存在对CUT&Tag数据敏感性不足、缺乏链特异性信息等局限,但提供的51种哺乳动物细胞预测图谱(http://193.147.188.155/pmargar/rloops_pred)将成为研究R-loop在发育和疾病中作用的重要资源。未来通过整合更多物种数据和改进算法架构,有望进一步揭示R-loop调控的进化保守性和病理机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号