基于动态分词与深度学习的染色质互作预测新框架Inter-Chrom及其在基序重要性解析中的应用

【字体: 时间:2025年06月20日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  本研究针对染色质互作预测中传统方法性能被高估、序列特征提取不足等问题,开发了集成动态分词与DNABERT词嵌入的深度学习模型Inter-Chrom。通过创新性序列泛化策略和高效通道注意力机制(ECA),模型在K562/IMR90/GM12878细胞系数据中显著优于SPEID等现有方法(AUPRC提升>15%),并首次提出融合熵理论的基序重要性评分公式,发现CEBPB、FLI1等关键转录因子基序及未充分研究的HXB8等新靶点,为三维基因组研究提供了鲁棒的计算工具。

  

三维基因组研究的困局与突破
基因组的三维折叠如同城市交通网络,染色质远程互作(chromatin interactions)决定了基因表达的时空特异性。尽管Hi-C和ChIA-PET等技术已绘制出染色质互作图谱,但高昂的实验成本与复杂的数据解析成为瓶颈。现有计算方法如SPEID、IChrom-Deep存在序列特征提取不充分、跨细胞系预测性能骤降等问题,更因随机采样策略导致模型性能被严重高估。如何突破这些限制,建立兼具精度与泛化能力的预测模型,成为三维基因组学领域的核心挑战。

山东大学的研究团队在《Briefings in Bioinformatics》发表的研究给出了创新解决方案。通过开发Inter-Chrom深度学习框架,首次将自然语言处理中的动态分词技术(BPE算法)引入基因组序列分析,结合染色体分割训练策略和新型基序重要性评估体系,不仅实现了染色质互作的高精度预测,更揭示了CEBPB、NF-Y等关键转录因子基序的调控机制。这项研究为理解基因表达的时空调控提供了全新视角。

关键技术方法
研究采用靶向捕获的K562等3种细胞系数据(1:10正负样本比),通过BEDTools提取序列特征。模型架构包含:(1)基于SentencePiece和BPE的动态分词模块,构建4096词表;(2)高效通道注意力(ECA)模块,自适应计算通道权重;(3)染色体分层十折交叉验证;(4)新型基序重要性评分公式,整合基序长度、频率及指标变化量Δm。实验对比了5种基线模型,采用AUPRC等4项指标评估。

研究结果

性能比较:序列模块的绝对优势
在严格控制数据泄漏的染色体分割验证中,Inter-Chrom的AUPRC达0.82±0.03(K562),较IChrom-Deep提升23%。图2显示其F1分数在GM12878细胞系中稳定保持0.75以上,而SPEID等模型表现接近随机猜测(AUPRC≈0.5)。值得注意的是,仅使用单链序列输入时性能损失<5%,证实ECA模块对特征提取的强化作用。

跨细胞系预测的稳定性突破
图3揭示传统方法在跨细胞系测试中性能崩塌的现象:IChrom-Deep从GM12878迁移至IMR90时F1分数暴跌至0.31。而Inter-Chrom在相同条件下保持0.68±0.05的稳定表现,证明其捕捉到跨细胞系保守的序列特征。这种稳健性源于动态分词对k-mer长度偏见的消除,使模型能识别不同细胞环境中稳定的基序组合模式。

基序重要性评估的创新范式
通过计算突变401个HOCOMOCO基序后的指标变化,研究提出融合信息熵的评分公式:Scoremm/Cm[αfmlog2αfm+1]。图6显示该公式有效校正了传统方法对高频基序(如SP1)的过度偏倚,使低频高影响力基如FLI1(ETS家族)排名提升至前5%。

讨论与展望
该研究通过语言学启发的序列分析方法,解决了染色质互作预测中的三个关键问题:(1)传统k-mer方法无法捕捉长程依赖,而BPE分词通过可变长token建模基序组合;(2)染色体分割策略消除数据泄漏,使性能评估更可靠;(3)熵加权评分体系首次量化基序频率与功能重要性的非线性关系。发现的PKNX1等未充分研究基序,为后续功能验证提供新靶点。

局限在于BPE过程可能割裂长基序,未来可尝试混合分词策略。作者建议整合单细胞Hi-C等多组学数据,以捕捉动态互作过程。这项研究不仅提供了开源工具Inter-Chrom(GitHub可获取),更开创了基于信息论的基因组特征重要性评估框架,为三维基因组学的算法开发树立了新标杆。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号