基于双向门控循环单元的生物信息学模型MJnet:高效预测microRNA靶位点的新方法

【字体: 时间:2025年07月26日 来源:Computational Biology and Chemistry 2.6

编辑推荐:

  推荐:本研究针对microRNA(miRNA)靶位点预测中深度学习模型计算复杂、可解释性差的问题,开发了基于BiGRU架构的轻量级模型MJnet。该模型整合C2编码、多尺度TextCNN和自注意力机制,在保持低计算成本的同时,显著提升了预测准确率(F1-score)和可解释性,为miRNA介导的基因调控研究提供了高效工具。

  

在基因表达的精细调控网络中,microRNA(miRNA)作为长度仅21-24个核苷酸的小分子RNA,通过与靶mRNA的3′非翻译区(3′UTR)结合,在RNA诱导沉默复合体(RISC)介导下调控基因表达。自1993年lin-4在秀丽隐杆线虫中的发现以来,miRNA已被证实参与细胞分化、增殖、凋亡等关键生物学过程,其异常表达与乳腺癌等多种癌症密切相关。然而,传统预测工具如TargetScan依赖保守的7-mer种子匹配规则,而深度学习方法如Mimosa虽精度高但计算复杂且缺乏可解释性。

针对这一技术瓶颈,江西省教育厅科研计划(GJJ2400909/GJJ2402711)资助的研究团队开发了MJnet模型。这项发表于《Computational Biology and Chemistry》的研究,创新性地将双向门控循环单元(BiGRU)与多尺度一维卷积(TextCNN)、自注意力机制相结合,采用2比特C2编码替代传统one-hot编码,在保持精度的同时显著降低计算复杂度。研究使用miRTarBase标准化数据集,通过对比实验验证模型性能,并利用注意力热图揭示种子区域的可解释模式。

关键技术包括:1)采用PAR-CLIP验证的303,912组miRNA-mRNA互作数据;2)对比C2/One-Hot/NCP/ND四种编码策略;3)集成BiGRU捕捉长程依赖、多尺度卷积提取局部特征、自注意力强化关键位点识别。

【Benchmark Datasets】
基于Diana TarBase和miRTarBase构建的标准化数据集显示,MJnet在平衡基因集测试中超越Mimosa等基线模型,F1-score提升显著。

【Encoding Strategy Analysis】
C2编码以2-bit二进制向量实现4倍于one-hot的存储压缩,在保持AUROC 0.92±0.03的同时,训练速度提升38%。

【Conclusion】
该模型突破性地平衡了精度(accuracy 0.89)与效率(GPU内存占用<2GB),注意力机制可视化证实其能准确定位miRNA第2-8位关键种子区。研究为大规模miRNA靶标筛查提供了可解释、低成本的解决方案,对癌症等疾病的机制研究和治疗靶点发现具有重要价值。

Junhao Yu等学者在讨论中指出,该方法克服了Transformer类模型参数量大的缺陷,未来可扩展至circRNA等非编码RNA互作预测领域。研究开源代码已发布于GitHub,为生物信息学社区提供了可复现的基准工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号