基于加权多数规则的代谢基因集整合多组学聚类方法WMRCA+在癌症亚型预测中的应用

【字体: 时间:2025年07月09日 来源:Hereditas 2.1

编辑推荐:

  研究人员针对癌症亚型预测中多组学数据整合难题,开发了基于加权多数规则的聚类算法WMRCA+。该研究通过整合mRNA、miRNA、lncRNA、DNA甲基化和CNV数据,结合脂代谢相关基因集(1390个基因),在TCGA肺癌数据中实现AUC 0.947的优异性能,显著优于iCluster/SNF/NMF等方法。其创新的十指标加权投票机制和代谢通路分析为肿瘤异质性研究提供了新范式。

  

癌症作为全球第二大死因,其治疗面临巨大挑战——2019年全球新发1930万病例中,近半患者因肿瘤异质性导致治疗失效。传统病理分型已无法满足精准医疗需求,分子亚型分类成为破局关键。然而现有方法如共识聚类(CC)和非负矩阵分解(NMF)多依赖单组学数据,而iCluster、相似性网络融合(SNF)等多组学工具又缺乏自动确定最佳聚类数(K值)的能力,更鲜有整合代谢特征的算法。

内蒙古科技大学生命科学与技术学院的研究团队在《Hereditas》发表创新成果,开发出WMRCA+算法。这项研究突破性地将脂代谢基因集与五类组学数据(mRNA/miRNA/lncRNA/甲基化/CNV)整合,通过十项内部评估指标(包括轮廓系数、Calinski-Harabasz指数等)的加权投票机制,在1027例TCGA非小细胞肺癌(NSCLC)数据中实现0.947的AUC值。关键技术包括:1)基于K近邻的数据预处理;2)代谢通路特征选择(涵盖7类1390个脂代谢基因);3)改进的簇中簇(COCA)框架;4)GSVA通路富集分析和CIBERSORT免疫浸润评估。

数据获取与预处理
研究从TCGA获取526例肺腺癌(LUAD)和501例肺鳞癌(LUSC)数据,经"data.filter"函数过滤后保留1000个特征/组学。特征选择采用中位数绝对偏差(MAD)和主成分分析(PCA),特别关注脂代谢相关基因如脂肪酸β-氧化通路基因。

聚类性能验证
如图2所示,共识矩阵热图显示K=2时簇内一致性最高(图2A),而累积分布函数(CDF)曲线在K=3进入平台期(图2B)。加权投票最终确定K=2为最优,其敏感度(Sn)达0.934,显著优于传统CC(0.928)和iCluster(0.912)。

代谢特征解析
GSVA分析揭示LUAD显著富集甘油三酯合成等30条通路(P<0.05),如图5E所示。免疫浸润显示LUAD富含树突细胞(图5F),而LUSC以巨噬细胞为主——这种差异解释了为何LUAD对 neoadjuvant therapy反应率更低(图5C)。

讨论与展望
该研究首次证实脂代谢重编程与免疫微环境的协同作用驱动癌症亚型分化。WMRCA+的创新性体现在:1) 十指标动态加权机制解决K值确定难题;2) 代谢-免疫交叉分析提供生物学解释;3) R包集成COCA/SNF等6种算法。局限在于未量化各组学贡献度,未来拟引入深度神经网络(DNN)优化特征权重。这项成果为"代谢-表观遗传-免疫"三位一体的精准分型奠定基础,其开源工具(https://github.com/guojunliu7/WMRCA)将助推肿瘤异质性研究进入多组学时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号