《International Journal of Molecular Sciences》:Inferring circRNA–Disease Associations via Sparse Topological Representation Learning and Dual-View Decoding
编辑推荐:
环状RNA(circular RNAs, circRNAs)是复杂疾病发生与进展中的关键调控因子,并有望成为诊断与预后生物标志物。然而,绝大多数潜在的circRNA–疾病关联尚未经过实验验证,这主要归因于湿实验(wet-lab)方法在成本与时间上的高要求。为弥
环状RNA(circular RNAs, circRNAs)是复杂疾病发生与进展中的关键调控因子,并有望成为诊断与预后生物标志物。然而,绝大多数潜在的circRNA–疾病关联尚未经过实验验证,这主要归因于湿实验(wet-lab)方法在成本与时间上的高要求。为弥补这一缺口,研究人员提出了STRCDA(Sparse Topological Representation learning for CircRNA–Disease Associations)。该流程首先通过整合多样化生物学属性,构建circRNA和疾病的融合相似性谱。随后,利用带重启随机游走(Random Walk with Restart, RWR)对初始矩阵进行优化,以捕获局部特征。接着,采用带稀疏约束的双分支图自编码器,从优化后的局部特征和已知交互网络中提取整体拓扑嵌入。最后,使用XGBoost分类器对潜在circRNA–疾病配对进行评分。在CircR2Disease数据集上,STRCDA在五折交叉验证下取得了0.9771的AUC和0.9826的AUPR。值得注意的是,在预测得分最高的前20个关联中,有18个得到了独立实验证据支持,表明STRCDA是揭示疾病中circRNA功能的有效且稳健的工具。
该研究发表于《International Journal of Molecular Sciences》,聚焦于circRNA–疾病关联(circRNA–disease association, CDA)的计算预测问题。研究背景在于,circRNA是一类由反向剪接产生的共价闭合单链转录本,缺乏5′端帽结构和3′ poly(A)尾,因此具有显著高于线性RNA的稳定性。这种稳定性使其在疾病诊断、预后评估及机制研究中具有重要应用潜力。现有研究表明,circRNA可作为miRNA海绵、RNA结合蛋白分子支架,并参与免疫调控等多种生物学过程,因此被认为是复杂疾病,尤其是肿瘤等疾病中的重要调控分子。然而,依赖湿实验逐一验证circRNA与疾病之间的关系,存在实验周期长、资源消耗大、覆盖范围有限等突出问题,因此亟需发展高效可靠的计算方法用于候选关联的优先排序。
研究人员指出,尽管已有深度学习、网络传播和传统机器学习等多类方法被用于CDA预测,但仍存在两方面不足。其一,许多模型采用单尺度消息传递机制,难以同时兼顾局部精细拓扑信息与全局结构语境,导致关键生物学信号在层间传播过程中逐渐衰减。其二,在稀疏数据条件下,大量隐藏神经元对最终输出贡献有限,但常用激活函数下神经元激活率仍偏高,带来冗余计算负担,并延长训练收敛时间。这些问题在具有长程依赖的生物网络中尤为明显。基于此,研究人员提出了STRCDA模型,旨在通过稀疏约束与双解码协同机制,提升图结构学习对局部与全局信息的联合建模能力,并降低冗余参数对训练效率和泛化性能的不利影响。
从整体设计看,STRCDA首先基于多源生物学信息分别构建circRNA–circRNA相似性与疾病–疾病相似性。对circRNA侧,研究人员使用了功能相似性和高斯交互谱核(Gaussian interaction profile kernel, GIPK)相似性;对疾病侧,则采用MeSH层级结构构建的语义相似性与GIPK相似性。随后,通过优先使用功能/语义相似性、在其为0时回退到GIPK相似性的融合策略,生成多源融合相似性矩阵。为进一步突出局部结构特征,研究人员在融合相似性矩阵上实施RWR,并将所得拓扑扩散结果与关联邻接矩阵按列拼接,形成局部特征表示。在编码阶段,模型将特征矩阵X与邻接矩阵A输入图卷积网络(graph convolutional network, GCN)编码器,经两层图卷积获得潜在表示Z,并借助重参数化技巧估计隐变量分布。在解码阶段,STRCDA采用双解码器结构:内积解码器负责重建邻接矩阵,以捕获全局拓扑模式;GCN解码器负责恢复节点特征矩阵,以保留局部结构细节。模型损失函数在重建误差与KL散度(Kullback–Leibler divergence)之外引入L1正则化,以诱导稀疏权重解,减少冗余激活并增强可解释性。最终,研究人员将获得的表示输入XGBoost分类器,对候选circRNA–疾病关联进行打分和判别。
主要技术方法可概括如下:研究以CircR2Disease为基准数据集,原始数据来自CircR2Disease和MeSH;清洗后保留561个circRNA、100种疾病及607个经实验验证的关联,并随机抽取等量未记录配对作为负样本构建平衡数据集。独立测试进一步使用CircAtlas、Circ2Disease和CircRNADisease。方法流程包括:构建circRNA功能相似性、疾病语义相似性及circRNA/疾病GIPK相似性;采用多源相似性融合;通过RWR提取局部拓扑特征;利用带L1稀疏约束的双解码变分图自编码框架学习表示;最后借助XGBoost完成关联预测,并以五折交叉验证和独立数据集评估模型性能。
在研究结果部分,论文首先给出了“2.1. Evaluation Metrics”。研究人员采用五折交叉验证,并以准确率(Acc)、F1-score、Matthews相关系数(MCC)和受试者工作特征曲线下面积(AUC)评价模型性能,同时绘制ROC曲线并计算AUC,以综合反映分类能力。
在“2.2. Evaluate Model Performance”中,STRCDA在CircR2Disease基准数据集上的五折交叉验证结果显示出较高且稳定的预测性能。模型取得AUC 0.9771 ± 0.0156、AUPR 0.9826 ± 0.0100、平均F1-score 92.48% ± 1.44%、平均准确率92.34% ± 1.38%、MCC 84.81% ± 2.84%。其中第5折测试集表现最佳,AUC达到0.9922。该结果表明,STRCDA在CDA识别任务中具有较强的一致性、可靠性和判别能力。
在“2.3. Ablation Study”中,研究人员比较了内积解码器、GCN解码器及二者协同工作的双解码设置。结果显示,单独使用GCN解码器时各项指标最低,单独使用内积解码器性能较高,而双解码协同结构在所有评价指标上均优于两个单独分支。与单独内积解码器相比,双解码策略使AUC提高0.0380,AUPR提高0.0349,准确率提升7.08个百分点,说明双解码协同优化能够有效增强多维特征空间的学习与整合。
在“2.4. Comparison of Different Regularization Parameters”中,研究人员比较了无稀疏约束、仅L1、仅L2以及L1 + L2四种正则化设置。结果表明,L1正则化在参数为0.00001时取得最佳总体性能,对应AUC 0.9771、AUPR 0.9826、F1-score 92.48%和准确率92.34%。这一发现说明,在稀疏数据场景下,引入L1诱导的稀疏性能够显著改善模型性能,并兼顾特征选择与计算效率。
在“2.5. Comparison with Different Classifiers”中,研究人员将STRCDA与GBDT、Bagging、AdaBoost、LGBM和随机森林(RF)等传统分类器进行了比较。其他方法中,RF表现最佳,AUC为0.9614,AUPR为0.9690;但STRCDA在全部指标上仍优于RF,AUC提升0.0157,AUPR提升0.0136,F1-score提升2.21%,准确率提升2.47%,MCC提升4.70%。这一结果说明,STRCDA的表示学习与预测框架比常规分类模型更适合CDA预测任务。
在“2.6. Performance in Independent Datasets”中,研究人员进一步在CircAtlas、Circ2Disease和CircRNADisease三个独立数据集上测试模型泛化能力。STRCDA分别获得AUC 0.9726、0.9577和0.9608,AUPR分别为0.9760、0.9609和0.9541。结果显示,尽管数据质量与覆盖范围存在差异,模型在不同数据集上均保持了较稳健的性能,反映出较强的跨数据集泛化能力。
在“2.7. Comparison with Existing Methods”中,STRCDA与HoRDA、GCNCDA、AMDECDA、IGNSCDA、NMFMSN、GGCDA以及Wang’s method等7种已有方法进行对比。以AUC作为主要指标时,STRCDA取得最高AUC,较排名第二的方法高出0.0061,较最低方法高出0.1480,表明其预测能力优于现有代表性方法。
在“2.8. Case Study”中,研究人员对CircR2Disease中全部候选配对进行评分,选取预测得分前20的circRNA–疾病关联,并通过文献检索验证。结果显示,其中18个得到了已发表证据支持。该案例分析说明,STRCDA不仅在统计指标上表现优异,而且具有较强的未知关联挖掘能力,可为后续湿实验验证提供高可信度候选集。
论文讨论部分围绕模型优势与局限展开。研究结果表明,STRCDA的核心贡献在于通过双解码设计将全局拓扑建模与局部特征恢复结合起来,从而比单一解码框架更全面地重建circRNA–疾病网络;同时,L1正则化带来的稀疏约束降低了冗余神经元激活,提高了抗噪声能力、模型可解释性与训练效率。尽管如此,论文也指出模型仍依赖已知关联数据,因此在罕见疾病等信息稀缺场景下预测精度可能受限;此外,双解码结构在处理特征矩阵时引入了更高计算开销,随着数据规模增长,训练时间会明显增加。
研究结论部分可译为:circRNA有潜力成为多种疾病的生物标志物。该研究提出了STRCDA,一种围绕双解码器设计构建的新方法。其中,一个分支以内积解码器重建邻接矩阵,用于捕获全局拓扑模式;另一个分支以图卷积解码器恢复节点特征矩阵,用于保留局部结构细节。通过对circRNA–疾病网络的结构空间与特征空间进行联合优化,该双解码策略实现了更全面且更忠实的重建。模型还将L1正则化直接引入损失函数,作为诱导稀疏性的惩罚项。这一设计促进了稀疏权重解的形成,减少了活跃神经元数量,从而降低模型复杂度与过拟合风险,突出与circRNA–疾病关联最相关的特征和通路,提高可解释性,并通过消除冗余神经元激活提升计算效率。总体而言,这些设计显著增强了模型的整体效率与预测准确性,使STRCDA成为CDA预测的有力工具。尽管STRCDA表现突出,但仍存在若干局限:其对已知关联数据的依赖限制了在罕见疾病中的预测能力;双解码架构在处理特征矩阵时带来更高计算负担,数据规模增大时训练时间显著延长。未来对模型的持续优化有望进一步缓解这些问题并提升其性能。