基于贝叶斯层次模型的表观基因组区域转录调控因子精准识别方法BIT及其应用研究

【字体: 时间:2025年05月29日 来源:Nature Communications 14.7

编辑推荐:

  转录调控因子(TRs)在基因表达调控中起核心作用,但其精准识别面临线性染色体距离依赖、基序特异性低等挑战。研究人员开发了基于10,000+ TR ChIP-seq数据的贝叶斯层次模型BIT,通过整合表观基因组区域与TR结合谱的全基因组一致性分析,在扰动实验、癌症和单细胞分析中实现高精度TR识别,为疾病机制研究和治疗靶点发现提供了新工具。

  

基因表达的精密调控是生命活动的核心环节,而转录调控因子(Transcription regulators, TRs)作为这个过程的"指挥家",控制着从胚胎发育到疾病发生的各种生物学过程。然而,科学家们在破解这些"指挥家"身份时却面临着重重困难:现有计算方法要么过度依赖线性染色体距离而忽略远程调控,要么受限于低特异性的结合基序(motif),更缺乏对结果可靠性的量化评估。这些局限严重阻碍了人们对疾病相关TRs的精准识别,特别是在癌症等复杂疾病研究中。

针对这些挑战,来自中国的研究团队在《Nature Communications》发表了创新性研究成果。他们开发的BIT(Bayesian Identification of Transcriptional regulators)方法,通过整合超过10,000个TR ChIP-seq数据集,构建了一个全新的贝叶斯层次模型。该系统不仅能准确识别关键TRs,还能量化预测的不确定性,在TR扰动实验、癌症特异性分析和单细胞研究中展现出显著优势,为精准医学研究提供了强有力的新工具。

研究采用了多项关键技术:基于Bowtie2和MACS2的ATAC-seq数据分析流程、从GTRD数据库整合的TR ChIP-seq参考库、基于Polya-Gamma数据增强的Gibbs采样算法,以及用于验证的CRISPR/Cas9筛选数据(来自DepMap)和单细胞ATAC-seq分析(10X Genomics平台)。研究人员还开发了用户友好的R包和在线门户,方便研究者使用。

BIT能准确估计模型参数和TR排序
通过模拟不同参数组合(μ∈[-5,-2.5], τ2∈[0.5,1.5], σ02∈[1,2])的100次重复实验,BIT在全局参数估计中的均方误差(MSE)显著低于基线方法。即使当数据偏离正态假设(使用t分布和伽马分布生成),BIT仍保持稳健性能,Spearman相关系数维持在0.8以上,证实其参数估计和TR排序的可靠性。

从差异可及区域识别扰动TR
在CTCF急性缺失实验中,BIT不仅准确识别出CTCF(排名第一),还发现粘连蛋白复合体成员RAD21、SMC3和SMC1A(均排名前10)。STRING数据库验证了这些蛋白的强相互作用,解释了三者共现的生物学基础。在ZBTB7A敲除和FOXA2敲除实验中,BIT同样成功识别关键TRs及其协同调控因子,GO富集分析显示这些TRs显著富集于红细胞分化(adj.p=1.2×10-7)和胰腺发育(adj.p=3.4×10-5)等相关通路。

识别癌症类型特异性TR
分析TCGA九种癌症特异性可及区域时,BIT识别出32个文献验证的TRs,包括乳腺癌中的FOXA1/ESR1、前列腺癌中的AR/HOXB13等。值得注意的是,52/90的TOP10 TRs在CRISPR筛选中显示功能必需性(Chronos<-0.4)。与BART等五种方法相比,BIT识别出最多必需TRs(总数232个),且BIT分数与Chronos评分呈显著负相关(r=-0.41,p<0.01)。

单细胞水平解析细胞类型特异性TR
在10K PBMC和肝癌单细胞ATAC-seq数据中,BIT准确识别出B细胞关键调控因子PAX5/EBF1(经HPA验证)和肝癌恶性细胞标志物HNF4A/FOXA2。与ArchR等基于motif的方法相比,BIT在6种细胞类型中识别出最多HPA验证TRs(总计18个),且GO富集结果更具生物学特异性。Kaplan-Meier分析显示,BIT鉴定的HLF等TRs与肝癌患者生存显著相关(HR=2.1,p=0.008)。

这项研究通过创新的贝叶斯框架,解决了TR识别中的多个关键问题:首次在模型中区分具有多数据集和单数据集的TRs,通过层次结构整合跨TR和跨数据集信息;采用完全贝叶斯方法提供可靠的区间估计;利用大规模ChIP-seq数据规避motif方法的局限性。值得注意的是,BIT在保持高精度的同时计算效率良好,分析典型数据集仅需2-3小时。

研究结果对精准医学具有重要启示:在癌症研究中,BIT可帮助发现新的治疗靶点(如PIAS1/SOX13等泛癌调控因子);在单细胞时代,其识别细胞类型特异性TRs的能力为解析肿瘤微环境异质性提供了新视角。随着表观基因组数据的快速增长,这种整合10,000+实验数据的建模思路,为解码复杂疾病的转录调控网络树立了新范式。未来通过结合更多细胞类型特异性ChIP-seq数据和单细胞多组学技术,BIT有望在疾病机制研究和个性化治疗设计中发挥更大作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号