基于图自编码器和抗噪梯度提升的lncRNA-疾病关联预测模型LDA-GARB构建及其在结直肠癌和乳腺癌中的应用研究

【字体: 时间:2025年06月01日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对lncRNA-疾病关联(LDA)预测中存在的特征提取不充分、数据噪声和样本不平衡等问题,开发了整合非负矩阵分解(NMF)、图自编码器(GAE)和抗噪梯度提升的LDA-GARB框架。通过多维度特征融合和鲁棒分类算法,模型在交叉验证中AUC达0.9817,成功预测CCDC26与结直肠癌、HAR1A与乳腺癌的新关联,为疾病机制研究和生物标志物发现提供新工具。

  

在生命科学领域,长链非编码RNA(lncRNA)作为长度超过200个核苷酸的调控分子,已被证实与肿瘤发生、免疫调控等关键生理过程密切相关。随着研究的深入,科学家们发现lncRNA的异常表达与多种人类疾病存在显著关联,特别是在癌症中,lncRNA可作为潜在治疗靶点和诊断标志物。然而,传统的生物实验方法鉴定lncRNA-疾病关联(LDA)存在成本高、成功率低等瓶颈,而现有计算方法又面临特征提取不全面、数据噪声干扰和样本不平衡三大挑战。这些问题严重制约了LDA预测的准确性和临床应用价值。

针对这些难题,湖南工业大学计算机学院与湖南财政经济学院的研究团队在《Scientific Reports》发表了创新性研究成果。该研究开发了名为LDA-GARB的计算框架,通过整合非负矩阵分解(NMF)提取线性特征、图自编码器(GAE)捕获非线性特征,并设计抗噪梯度提升模型进行分类预测。研究采用两个独立数据集(分别包含92/89个lncRNA和157/190种疾病)进行验证,在5折交叉验证中AUC最高达0.9817,显著优于SDLDA等现有方法。特别值得注意的是,模型成功预测出CCDC26与结直肠癌、HAR1A与乳腺癌的新关联,为这两种高发癌症的诊疗提供了新思路。

关键技术方法包括:1) 基于MeSH描述符和GAPK(高斯关联轮廓核)计算疾病相似性;2) 采用NMF分解LDA矩阵获取线性特征;3) 构建多层图神经网络(GAE)提取非线性特征;4) 设计融合鲁棒焦点损失(Robust Focal Loss)的梯度提升决策树(GBDT)分类器。实验采用精确度、召回率、F1值、AUC和AUPR等指标评估,在lncRNA、疾病和关联对三个层面的交叉验证中均表现优异。

研究结果部分显示:在CV1验证中,LDA-GARB的AUC达到0.9180(数据集1)和0.9716(数据集2),较次优方法提升1.8-4.0%;在CV2验证中,对未知疾病的预测AUC达0.9493和0.9817;在CV3验证中,对全新关联对的预测AUC为0.9459和0.9790。与XGBoost等传统算法相比,抗噪梯度提升模型在数据不平衡场景下AUPR提升达15.6%。参数敏感性分析表明,当嵌入维度k=64、编码层N=1时模型性能最优。

案例研究部分尤为亮眼:在结直肠癌(CRC)预测中,排名前20的lncRNA里有13个已被实验验证,包括已知标志物BCYRN1和CCAT2;新预测的CCDC26已被独立研究证实可抑制白血病细胞生长。在乳腺癌预测中,前20个lncRNA有12个获验证,新发现的HAR1A在非小细胞肺癌中已被证明具有抑癌作用。这些预测结果为后续实验验证提供了明确方向。

讨论部分指出,LDA-GARB的创新性体现在两方面:一是通过NMF-GAE双通道特征提取解决了传统方法表征能力不足的问题;二是抗噪设计有效缓解了负样本中潜在正样本造成的标签噪声干扰。虽然模型在疾病语义特征提取方面仍存在数据泄露风险,但研究者建议未来可通过文本挖掘技术从医学文献中获取更全面的疾病特征。

这项研究不仅为lncRNA-疾病关联预测提供了更精准的计算工具,其预测的CCDC26和HAR1A等新型生物标志物更为癌症精准医疗开辟了新途径。该成果已开源共享,将持续推动lncRNA在疾病诊断和治疗中的应用研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号