
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于RNA-seq数据与单调迭代广义线性模型的circRNA-miRNA-mRNA调控轴先验知识质量提升研究
【字体: 大 中 小 】 时间:2025年05月28日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对非编码RNA相互作用实验数据匮乏的现状,开发了Prior-incorporated GMIFS(Pi-GMIFS)算法,通过整合RNA-seq表达数据与先验知识网络,显著提高了circRNA-miRNA-mRNA调控轴预测精度。捷克理工大学团队在《BMC Bioinformatics》发表的研究表明,该算法在异构数据集中的数值稳定性优于传统LASSO方法,对circRNA疾病注释的间接验证证实其可提升12.5%的预测性能,为RNA互作研究提供了新工具。
在生命科学领域,circRNA(环状RNA)作为竞争性内源RNA(ceRNA)网络的关键组分,其与miRNA、mRNA的调控关系仍是未解之谜。尽管现代高通量RNA测序(RNA-seq)技术已能捕获海量转录数据,但circRNA-miRNA互作的实验验证仍严重不足——目前主要依赖TargetScan等基于序列比对的计算预测工具,其假阳性率高达87.5%(见表3)。更棘手的是,异质性RNA-seq数据的整合分析常因数值不稳定导致算法崩溃(见表5),而circRNA研究又面临"大p小n"(基因数p>>样本数n)的维度灾难。
针对这些挑战,捷克理工大学计算机科学系的Alikhan Anuarbekov和Jiri Klema*团队开发了Prior-incorporated GMIFS(Pi-GMIFS)算法。这项发表于《BMC Bioinformatics》的研究创新性地将单调迭代广义线性模型(GMIFS)与先验知识整合策略相结合:首先通过无惩罚GLM回归估计先验响应值,再与原始数据插值形成混合响应变量,最终通过迭代梯度优化解决高维空间中的数值不稳定问题(图3)。研究团队从GEO和TCGA数据库收集了2,092例人类RNA-seq样本(表1),涵盖circRNA、miRNA和mRNA三种转录本,采用CPM/TPM标准化处理(图2)以消除批次效应。
关键技术包括:1)基于434-2,092例RNA-seq样本的负二项回归框架,利用Hilbe矩估计法计算离散参数?i;2)通过响应混合(response mixing)策略整合TarBase v9/multiMiR先验知识(式B3);3)采用改进的GPACDA流程进行circRNA-疾病关联的间接验证(图4)。算法通过AUROC指标(式12)评估性能,设置τ=10-5和ε=10-4的收敛阈值(算法2)。
研究结果部分显示:在miRNA-mRNA预测中,Pi-GMIFS使用2,092样本时将multiMiR先验的F1-score从0.28提升至0.34(表7),对合成TargetScan先验(12.5%精度/25%召回率)的改进尤为显著(图5右)。与glmnet等传统方法相比,其数值稳定性使模型收敛率从16.7%提升至95%以上(表8)。在circRNA-miRNA网络中,算法将circInteractome的互作数从55,148扩增至153,171,通过GPACDA验证其疾病注释AUROC从0.70提升至0.72(图6)。
讨论部分强调:Pi-GMIFS首次实现了异构RNA-seq数据与先验知识的稳定整合,其"响应混合"机制(式B8)可自适应调节先验权重η。虽然当前circRNA覆盖度仅50.9%(239/469),但研究表明增加样本量能持续提升性能。作者指出未来可引入批次校正和ElasticNet正则化,并建议对实验验证方法(如PAR-CLIP的11%假阳性率)进行质量加权。这项研究为解析非经典miRNA靶向机制(见表3)和circRNA致病通路(表4)提供了新范式,其代码已开源在GitLab平台。
生物通微信公众号
知名企业招聘