基于对比学习的深度生物语言模型Deep-m7G:RNA N7-甲基鸟苷位点预测新方法

【字体: 时间:2025年06月19日 来源:International Journal of Biological Macromolecules 7.7

编辑推荐:

  本研究针对RNA N7-甲基鸟苷(m7G)修饰位点预测的瓶颈问题,开发了融合对比学习的深度生物语言模型Deep-m7G。通过整合DNABERT-2预训练模型、并行卷积神经网络和创新的最远距离欠采样策略,模型在完整转录本(AUC=0.960)和成熟RNA(AUC=0.845)测试集上显著超越现有工具,为转录后调控机制研究提供了高效计算框架。

  

在生命活动的精密调控网络中,RNA修饰如同分子世界的"密码标记",其中N7-甲基鸟苷(m7G)是最常见的转录后修饰之一。这种带正电荷的修饰不仅存在于mRNA的5'端帽结构,还隐藏于tRNA可变环和rRNA中,甚至神秘地出现在mRNA内部区域。它像一位多面手,既能调控mRNA代谢、保护RNA免受降解,又参与翻译起始和RNA稳定性的精细调控。然而,传统检测技术如m7G-MeRIP-seq和m7G-MaP-seq面临成本高、周期长的困境,而现有计算工具受限于小样本数据集(仅741条41bp序列),存在严重过拟合风险。

为解决这一挑战,中国的研究团队开发了Deep-m7G——一个融合对比学习的深度生物语言模型。这项发表在《International Journal of Biological Macromolecules》的研究,从m7G-Hub v2.0数据库中整合了8402个人类单核苷酸分辨率m7G位点,创新性地采用最远距离欠采样策略平衡数据分布。技术核心在于:1)DNABERT-2预训练模块捕获核苷酸上下文特征;2)并行多尺度卷积块提取局部模体与全局依赖;3)对比学习模块增强特征判别力。

基准数据集构建
研究团队系统分析了8402个m7G位点的分布特征,发现83.8%位于mRNA和lncRNA中,且在5'UTR和编码区显著富集。通过严格的质量控制,构建了包含完整转录本和成熟RNA两种模式的基准数据集,为模型训练奠定基础。

模型架构创新
Deep-m7G的三重创新架构表现亮眼:最远距离欠采样策略使类别平衡的同时保留序列多样性;DNABERT-2与并行CNN的联用实现了从单核苷酸到全局序列特征的层级提取;对比学习模块通过正负样本特征对比,使AUC提升达4.3%。

性能验证
10折交叉验证显示,对比学习模块对模型性能贡献显著。在独立测试中,Deep-m7G以压倒性优势超越现有工具:完整转录本预测AUC达0.960(对比基线0.653-0.898),成熟RNA预测AUC达0.845(对比基线0.684-0.832)。特征可视化分析进一步证实模型能准确识别m7G相关序列模式。

这项研究标志着表观转录组学分析的重要突破。通过建立目前最全面的m7G位点预测框架,Deep-m7G不仅解决了传统方法泛化能力不足的痛点,其创新的对比学习机制更为其他RNA修饰研究提供了范式参考。特别值得注意的是,模型在保持高精度的同时避免了复杂特征工程,这对推动转录后调控机制的规模化研究具有深远意义。研究团队在讨论中指出,未来可进一步探索m7G修饰与翻译效率、RNA稳定性的定量关系,为精准医学提供新的分子标记。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号