
-
生物通官微
陪你抓住生命科技
跳动的脉搏
circGPAcorr:基于表达数据整合分析的环形RNA功能注释新工具
【字体: 大 中 小 】 时间:2025年08月03日 来源:BioData Mining 6.1
编辑推荐:
本研究针对环形RNA(circRNA)功能注释中存在的假阳性交互问题,开发了circGPAcorr算法。该工具通过整合表达数据对circRNA-miRNA-mRNA互作网络进行加权,采用生成多项式方法计算p值,解决了传统网络注释方法的精度瓶颈。实验表明其在骨髓增生异常综合征(MDS)数据中能获得与文献一致的功能注释,并在circRNA-疾病关联预测任务中显著提升召回率。这项研究为circRNA功能研究提供了更可靠的算法框架。
在非编码RNA研究领域,环形RNA(circRNA)因其独特的闭合环状结构和调控功能成为热点。然而,超过80%的circRNA功能仍属未知,传统的"基于关联的负罪推定"(guilt by association)方法面临两大挑战:一是数据库中存在大量假阳性互作(如TargetScan预测的circRNA-miRNA互作假阳性率高达60%),二是静态网络无法反映组织特异性表达模式。这些问题严重制约了circRNA作为疾病标志物和治疗靶点的应用价值。
捷克理工大学电气工程学院计算机科学系的研究团队在《BioData Mining》发表的研究中,开发了circGPAcorr算法。该工具创新性地将表达数据转化为网络权重,通过生成多项式(generating polynomial)精确计算p值,实现了circRNA功能的精准注释。研究团队采用三种权重计算策略:表达相关性权重(保留负相关互作)、差异表达权重(基于log fold change)和TargetScan预测权重,并通过#P-hard问题的近似求解方案显著提升计算效率。
关键技术包括:(1)构建circRNA-miRNA-mRNA三级互作网络,整合TarBase验证的miRNA-mRNA互作和CircInteractome预测的circRNA-miRNA互作;(2)使用98例骨髓增生异常综合征RNA-seq样本计算表达相关性;(3)开发离散化算法处理实数权重,通过动态规划高效计算生成多项式系数;(4)采用FWER(Bonferroni)和FDR(Holm)多重检验校正。
方法创新性验证
通过比较蒙特卡洛采样法,circGPAcorr在密集连接网络中实现最高6,880倍加速。算法输出的p值区间(如[1.0·10-9,5.3·10-8])为结果可靠性提供量化依据。
骨髓增生异常综合征案例研究
以hsa_circ_0000228为例,其最显著关联的GO术语"RNA聚合酶II转录负调控"(GO:0000122)与CTD数据库记录的MDS相关术语一致。该circRNA源自ZEB1基因,其预测的染色质修饰功能(权重=5.9,p<5.7×10-6)与ZEB1的已知功能匹配,证实算法能通过间接互作网络还原生物学真相。
跨疾病预测性能
在1,238对已验证的circRNA-疾病关联测试中,整合三种权重策略的集成模型显著提升F1值。特别在阳性未标记数据场景下,召回率提升表明算法能有效挖掘潜在关联。
这项研究的意义在于建立了首个整合表达数据与网络拓扑的circRNA注释框架。circGPAcorr不仅解决了假阳性互作干扰的核心问题,其#P-hard问题的解决方案更为复杂网络分析提供了通用计算范式。研究者开源的算法工具(https://github.com/petrrysavy/circGPAcorr)支持基因本体注释和疾病关联预测双路径,为circRNA的临床转化研究提供了可靠的计算基础。未来通过结合单细胞测序数据,该框架有望进一步揭示circRNA在细胞类型特异性调控中的作用机制。



生物通微信公众号
知名企业招聘