
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TRAPT:基于多模态融合深度学习框架的大规模表观基因组数据转录调控因子预测新方法
《Nature Communications》:
【字体: 大 中 小 】 时间:2025年04月17日 来源:Nature Communications
编辑推荐:
本研究针对疾病研究中转录调控因子(TRs)识别难题,开发了多阶段融合深度学习框架TRAPT,通过整合基因组结合位点与顺式调控元件信息,在570个TR相关数据集中显著优于现有方法,尤其擅长预测转录辅因子(TcoFs)和染色质调节因子(CRs),为疾病机制、遗传变异和细胞命运研究提供了创新工具,发表于《Nature Communications》。
基因表达的精密调控如同交响乐团的演奏,而转录调控因子(Transcriptional Regulators, TRs)就是这场生命交响乐的指挥家。这些包括转录因子(TFs)、转录辅因子(TcoFs)和染色质调节因子(CRs)在内的分子"指挥家",通过识别基因组上的调控元件来调控基因的表达程序。当这些"指挥家"出现异常时,就会导致疾病的发生发展。然而,在特定生物学背景下准确识别关键TRs仍面临巨大挑战——现有方法要么仅考虑基因集富集分析而忽略调控元件信息,要么无法全面模拟TRs的全基因组结合偏好性(TRBP),更缺乏对TcoFs和CRs的系统预测能力。
哈尔滨医科大学的研究团队在《Nature Communications》发表了创新性研究成果,开发了名为TRAPT的多模态深度学习框架。该研究整合了17,227个TR ChIP-seq、1,465个H3K27ac ChIP-seq和1,329个ATAC-seq数据集,构建了迄今最全面的表观基因组特征库。TRAPT通过多阶段融合策略,首次同时考虑了TRs的全基因组结合位点活性与靶基因顺式调控元件的表观状态,解决了TRBP和不完全覆盖(ICCP)两大难题。
关键技术包括:1)基于条件变分自编码器(CVAE)和变分图自编码器(VGAE)的双向知识蒸馏模型,用于优化表观基因组调控网络;2)稀疏群套索(SGL)约束的样本选择算法,从冗余数据中筛选关键表观特征;3)整合来自KnockTF数据库的570个TR敲除/敲低数据集作为基准测试集;4)应用多组学数据标准化方法计算调控潜能(RP)得分。
研究结果显示,TRAPT在预测性能上全面超越现有方法。在"目标TR排序"评估中,TRAPT的AUC达到0.643,比次优方法Lisa提高30.8%,对TcoFs和CRs的预测优势更为显著。特别值得注意的是,在ESR1敲除实验中,TRAPT不仅准确识别了ESR1的双重调控功能(在上下调基因集中分别排名第1和第17),还发现了FOXA1、EP300等已知乳腺癌相关调控因子。通过分析阿尔茨海默病(AD)GWAS数据,TRAPT预测的SPI1、RELA等TRs显著富集于致病突变位点,如rs10119位于APOE-TOMM40基因簇的关键染色质环结构区域。
在发育生物学应用中,TRAPT成功捕捉了造血干细胞分化过程中的关键调控因子:在NK细胞谱系中识别STAT4,在浆细胞样树突细胞(pDC)谱系中发现TCF4。对30种正常组织的分析则揭示了组织特异性调控网络,如心脏中MED1-TBX5-GATA4的协同作用,以及前列腺中AR-FOXA1-HOXB13的调控轴。
这项研究的创新性体现在三个方面:首先,多阶段融合策略首次实现了TRs全基因组结合活性与局部调控元件表观状态的协同建模;其次,知识蒸馏技术的应用有效解决了跨模态数据整合中的噪声问题;最后,建立的TR背景库覆盖了17,227个TRs,是现有最大数据库的2.49倍。研究提供的在线平台(https://bio.liclab.net/TRAPT)支持用户自定义基因集分析,为疾病机制研究和药物靶点发现提供了全新工具。
讨论部分指出,虽然TRAPT在TR预测方面取得突破,但其性能仍受限于特定细胞类型的表观数据覆盖度。未来通过引入基因调控网络可能更好地模拟TRs间的复杂互作。这项工作不仅为转录调控研究提供了方法论创新,更重要的是建立了从基因组变异到表观调控再到表型变化的系统性研究框架,在精准医学和发育生物学领域具有广阔应用前景。
生物通微信公众号
知名企业招聘