基于多分支特征整合的MCAMEF-BERT模型:RNA N7-甲基鸟苷位点预测的高效深度学习新方法

【字体: 时间:2025年09月02日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对RNA N7-甲基鸟苷(m7G)修饰位点预测中存在的特征冗余、生物先验知识利用不足等问题,开发了融合DNABERT-2预训练模型与多通道注意力机制的MCAMEF-BERT模型。该模型通过并行架构整合全局序列特征与局部编码特征,在m7GHub数据集上展现出94.27%的AUC值,显著优于现有方法,并通过体外饱和突变实验验证了其识别GGGGUGGGGG等关键motif的生物学可靠性,为肿瘤发生机制研究提供了新工具。

  

在生命活动的精密调控网络中,RNA修饰如同暗藏的密码,悄然影响着基因表达的每一个环节。其中N7-甲基鸟苷(m7G)修饰因其在tRNA、mRNA等多种RNA分子中的广泛分布,以及与肿瘤发生、干细胞维持等关键生物学过程的密切关联,成为表观遗传学研究的热点。然而传统实验方法如m7G-seq和m7G-MaP-seq面临分辨率低、操作复杂等瓶颈,而现有计算预测工具又受限于特征冗余、模型解释性差等缺陷。这些挑战呼唤着新一代智能算法的诞生——既要像显微镜般精准捕捉序列特征,又要像解码器般揭示修饰位点背后的生物学规律。

为突破这些限制,山东大学联合团队在《Briefings in Bioinformatics》发表了创新性研究成果。研究采用多组学整合策略,首先从m7GHub数据库获取5486条经CD-HIT去冗余的人源m7G修饰序列,构建平衡数据集。关键技术方法包括:1) 采用DNABERT-2预训练模型捕捉序列上下文特征;2) 设计多编码融合(MEF)分支整合One-hot、ENAC等四种传统编码特征;3) 创新性引入多通道注意力(MCA)机制消除特征冗余;4) 通过双向LSTM和Transformer架构实现特征对齐;5) 应用体外饱和突变(ISM)技术进行模型可解释性验证。

模型架构优化

MCAMEF-BERT采用双分支并行架构,其中DNABERT-2分支通过12层Transformer编码器提取全局特征,而MEF分支通过卷积神经网络挖掘局部模式。如图1所示,MCA模块采用"小感受野配大通道"策略(kernel size 3-7),经GAP(全局平均池化)和Sigmoid加权后,特征冗余度降低67%。在201bp输入长度下,该设计使模型在测试集达到89.68%的准确率,较501bp输入提升2.3%。

比较分析

如表3所示,模型在六种基线方法中全面领先:AUC值94.27%显著超过moss-m7G(90.81%)和iRNA-m7G(85.60%),MCC值79.46%证明其平衡性更佳。图4的UMAP可视化显示,完整模型决策边界清晰,而移除预训练分支(W/o pretrain)或MCA模块(W/o mca)时样本重叠度增加40%,证实各组件协同增效。

生物学解释

ISM分析(图5)揭示模型对中心G五联体"GGGGG"具有强响应性,与STREME工具识别的"GGGGUGGGGG"motif高度吻合。突变实验显示第100-110位点敏感性评分达7.5分(满分10分),该区域富含的AG二核苷酸可能是甲基转移酶结合的关键位点。

泛化能力验证

如表5所示,模型在m6A、m1A等七类修饰预测中AUC均值达92.09%,其中Gm修饰识别精度最高(95.66%),证实其跨任务迁移能力。这种优势可能源于DNABERT-2预训练阶段学习的多尺度k-mer特征(3-6mer)。

这项研究开创性地将预训练语言模型与注意力机制引入RNA修饰预测领域。其创新价值体现在三方面:技术上,MCA模块解决多源特征融合的冗余难题;理论上,双分支设计弥合了全局语境与局部特征的表征鸿沟;应用上,ISM分析为挖掘修饰规律提供可视化工具。值得注意的是,模型识别的G-rich motif与METTL1-WDR4复合物底物偏好性相符,这为肺癌等m7G相关肿瘤的机制研究提供了新线索。未来工作可探索该框架在单细胞表观组学中的应用,或将推动RNA修饰靶向药物的开发进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号