细菌小 RNA 与 mRNA 互作预测新方法:图神经网络与集成模型提升未知条件下的预测效能

【字体: 时间:2025年05月22日 来源:BMC Bioinformatics 2.9

编辑推荐:

  细菌小 RNA(sRNA)通过结合 mRNA 调控基因表达,但其互作预测受限于实验条件。本研究开发 GNN(GraphRNA、kGraphRNA)和决策森林(sInterRF、sInterXGB)模型,结合 SEM 集成模型,在跨条件预测中显著提升 AUC 和 PR-AUC,为 sRNA 调控机制研究提供新工具。

  细菌世界里,微小的 RNA 分子正上演着调控基因表达的 “暗战”。细菌小 RNA(sRNA)作为关键的转录后调控因子,通过与 mRNA 靶标结合影响毒力、代谢等重要生理过程。然而,揭示 sRNA 与 mRNA 的互作网络面临重重挑战:高通量(HT)实验虽能捕获大量互作数据,却受限于特定环境条件,且技术门槛高、检测效率低;传统计算方法如 RNAup、CopraRNA 等或依赖能量计算,或受限于保守 sRNA 预测,难以准确刻画复杂环境下的动态互作。如何从有限条件的实验数据中挖掘普适性规律,预测未知条件下的互作关系,成为破译细菌基因调控密码的关键科学问题。
为突破这一瓶颈,以色列本古里安大学(Ben-Gurion University of the Negev)的研究团队开展了一项富有创新性的研究。他们聚焦大肠杆菌 K12 MG1655 菌株,开发了基于机器学习(ML)的预测模型,旨在实现不同环境条件下 sRNA-mRNA 互作的精准预测。相关成果发表在《BMC Bioinformatics》,为细菌 RNA 调控研究开辟了新路径。

关键技术方法


研究采用多模型协同的技术策略:

  1. 图神经网络(GNNs):构建包含 sRNA 和 mRNA 节点的二分图,通过 GraphRNA(随机初始化节点嵌入)和 kGraphRNA(基于 3-mer 频率特征初始化)学习图结构中的互作模式,利用 GraphSAGE 卷积层实现节点表示的迭代更新。
  2. 决策森林模型:包括随机森林(sInterRF)和 XGBoost(sInterXGB),整合局部互作特征(如 RNAup 计算的杂交能量、双链结构参数)和 3-mer 频率差异特征,通过特征选择算法(mRMR)优化输入维度。
  3. 求和集成模型(SEM):结合单一模型预测分数,如 GraphRNA 与 CopraRNA 的组合,提升预测鲁棒性。
    实验数据来自 sInterBase 数据库,分为低通量(LT)和高通量(HT)数据集,通过留一条件法(seen-to-unseen)和 HT-to-LT 评估模型跨条件泛化能力。

研究结果


1. 未知条件下的互作预测效能


在三种 “已知 - 未知” 条件评估中(对数期 - 稳定期、LB 培养基 - m63 培养基、正常 - 胁迫),GNN 模型表现突出:

  • kGraphRNA在对数期到稳定期预测中,AUC 达 0.84,显著优于 sRNARFTarget(AUC=0.79,p=3.24×10-7),PR-AUC 提升至 0.80,表明其对生长阶段转变的互作动态具有强捕捉能力。
  • 在培养基类型预测(LB→m63)中,SEM_kGraphRNA_sInterRF 模型 AUC 达 0.91,pAUC(FPR≤0.15)为 0.72,显示出对营养环境变化的适应性。
  • 胁迫响应预测中,sInterRF 模型 AUC 为 0.74,虽低于前两项任务,但仍显著优于 CopraRNA(p=0.03),揭示了胁迫条件下互作机制的复杂性。

2. 高通量到低通量数据的预测迁移


在 HT-to-LT 评估中,SEM_GraphRNA_CopraRNA 模型表现最佳(AUC=0.70,PR-AUC=0.79),显著优于单一模型 CopraRNA(p=0.004)。尽管 HT 数据包含更多动态互作,而 LT 数据侧重功能验证,集成模型通过融合序列特征与进化保守性,有效弥合了不同实验体系的差异。

3. 特征重要性与互作机制解析


通过 SHAP 值分析发现,3-mer 频率差异特征(如 TTT、CTG)对模型预测贡献最大,其中 TTT 频率差高值降低互作概率,与生物学中 sRNA-mRNA 种子区配对偏好一致。局部互作特征中,杂交能量(ΔGh)、双链碱基对数、sRNA 展开能量等热力学参数显著影响预测结果,印证了 Hfq 介导的 RNA 双链形成机制 ——Hfq 通过降低 sRNA 结构稳定性促进互作。

结论与意义


本研究首次系统验证了机器学习模型在跨环境条件预测 sRNA-mRNA 互作中的有效性,揭示了 RNA 序列组成与双链结构特征在互作中的核心作用。GNN 模型摆脱了对传统能量计算工具(如 RNAup)的依赖,提升了预测效率与可扩展性;集成模型则通过多维度特征融合,为复杂生物网络预测提供了通用框架。

尽管研究聚焦大肠杆菌,但其方法可推广至其他细菌菌株,尤其适用于物种特异性 sRNA 的预测,填补了 CopraRNA 等工具的空白。随着 HT 技术的普及与多物种互作数据的积累,基于图神经网络和集成学习的预测模型将成为解析细菌 RNA 调控网络的核心工具,为抗菌靶点发现、合成生物学设计提供理论支撑。未来研究可进一步探索跨物种迁移学习,以解决低数据量细菌的互作预测难题,推动微生物组研究的智能化发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号