基于凝聚梯度提升模型的lncRNA-疾病关联预测新方法LDA-SCGB及其在结直肠癌、心力衰竭和肺腺癌中的应用研究

【字体: 时间:2025年07月23日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对长链非编码RNA(lncRNA)与疾病关联(LDA)预测的挑战,提出了一种名为LDA-SCGB的新型计算模型。该研究通过结合奇异值分解(SVD)和凝聚梯度提升(CGBoost)技术,在三个LDA数据集上显著优于现有方法,预测出CCDC26与结直肠癌、MIAT与心力衰竭等新型关联,为疾病诊断和治疗提供了新思路。论文发表在《BMC Bioinformatics》。

  

在基因组研究中,虽然蛋白质编码基因仅占1.5%,但占基因组98%以上的非编码RNA(ncRNA)在调控生命过程中扮演着关键角色。其中,长链非编码RNA(lncRNA)的异常表达与多种疾病密切相关,如lncRNA FARSA-AS1的缺失可抑制肿瘤生长,MALAT1能通过海绵吸附miR-106b-5p触发结直肠癌发展。然而,实验方法鉴定lncRNA-疾病关联(LDAs)存在耗时耗力、成本高等问题,亟需开发高效的计算预测方法。

湖南工学院计算机科学与工程学院的研究人员联合多家医疗机构开发了LDA-SCGB模型,该研究发表在《BMC Bioinformatics》。研究人员首先从lncRNADisease v2.0、MNDR和lncRNADisease v3.0三个数据库中收集了157-942个lncRNA和142-190种疾病之间的605-2260个已知关联数据。通过奇异值分解(SVD)提取lncRNA和疾病的特征向量,再采用创新的凝聚梯度提升(CGBoost)算法进行分类预测。CGBoost利用具有向量值叶模型的决策树,在每次迭代中仅需训练一棵决策树,显著提高了计算效率。

研究结果显示,在三种5折交叉验证(CVl、CVd和CVld)中,LDA-SCGB的AUC值分别达到0.9033-0.9811,显著优于SDLDA、LDNFSGB等现有方法。特别值得注意的是,在预测新疾病关联方面,模型识别出CCDC26可能是结直肠癌的新型生物标志物,生存分析显示CCDC26表达水平与结肠腺癌(COAD)患者生存率显著相关(p=0.04)。对心力衰竭的预测发现MIAT可能参与疾病进程,而肺腺癌分析则提示CCDC26可能与该癌症类型存在关联。

材料与方法

研究使用了三个LDA数据集构建关联矩阵Y∈Rn×m,通过SVD分解Y=UΣVT提取k个最大奇异值对应的特征。CGBoost采用L2正则化逻辑损失函数,通过决策树拟合残差rikm,并利用牛顿-拉夫森算法更新叶节点输出αmjk。特征维度优化实验确定最佳维度为4-64。

结果

在CVl验证中,LDA-SCGB在三个数据集上的AUC分别为0.9033、0.9618和0.9811。CVd验证显示模型对疾病预测的AUC达0.9459-0.9820。CVld验证中,模型对未知关联对的预测精度达0.9473-0.9835。与XGBoost等传统提升算法相比,CGBoost在多数指标上表现更优。

案例研究

对结直肠癌的预测发现,在排名前20的lncRNA中,19个已被数据库验证,CCDC26是新预测的候选标志物。心力衰竭预测中,MIAT被识别为潜在关联lncRNA。对肺腺癌的预测虽然生存分析p值不显著(0.34),但排名靠前的H19、CDKN2B-AS1等已被证实与疾病相关。

结论与讨论

LDA-SCGB通过整合SVD特征提取和CGBoost分类,建立了高效的LDA预测框架。该方法不仅提高了预测准确性,还发现了CCDC26与结直肠癌、MIAT与心力衰竭等新型潜在关联。尽管存在负样本缺乏等局限性,但该研究为疾病生物标志物发现提供了新工具,未来可通过整合更多组学数据和开发端到端深度学习模型进一步提升性能。研究成果对理解lncRNA在疾病中的作用机制和开发靶向治疗策略具有重要意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号