
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于统计与深度学习的多组学整合分析在乳腺癌分子分型中的比较研究
【字体: 大 中 小 】 时间:2025年07月02日 来源:Journal of Translational Medicine 6.1
编辑推荐:
本研究针对乳腺癌(Breast Cancer, BC)分子分型中多组学数据整合方法的性能差异问题,通过比较统计模型MOFA+与深度学习模型MoGCN在转录组、表观组和微生物组数据整合中的表现,发现MOFA+在特征选择(F1分数0.75)和通路富集(121条关键通路)方面更具优势,为乳腺癌精准医疗提供了新的生物标志物发现策略。
乳腺癌是全球女性癌症死亡的主要原因之一,其分子异质性给临床分型和治疗带来巨大挑战。传统的单组学研究难以全面揭示疾病机制,而多组学整合技术为解析乳腺癌亚型特征提供了新思路。然而,不同整合方法(如统计模型与深度学习)的性能差异尚不明确,制约了其在临床中的应用。
为解决这一问题,尼罗河大学等机构的研究团队在《Journal of Translational Medicine》发表研究,系统比较了统计模型MOFA+(Multi-Omics Factor Analysis)与图卷积网络MoGCN(Multi-Omics Graph Convolutional Network)在960例TCGA乳腺癌样本中的表现。研究整合了宿主转录组(20,531个特征)、表观组(22,601个特征)和微生物组(1,406个特征)数据,通过非线性机器学习模型和通路分析评估两种方法的性能。
关键技术方法
研究采用TCGA-PanCanAtlas 2018队列的乳腺癌多组学数据,使用ComBat和Harman校正批次效应。MOFA+通过15个潜在因子(Latent Factors)捕获跨组学变异,MoGCN则利用自动编码器降维。特征选择统一提取每组学前100个特征,通过支持向量分类器(SVC)和逻辑回归(LR)评估分类性能,并采用OmicsNet 2.0进行通路富集分析。
研究结果
1. 统计模型MOFA+展现更优聚类性能
MOFA+的潜在因子1解释了表观组(22.3%)和转录组(11.4%)的主要变异,其t-SNE聚类可视化显示清晰的亚型分离。Calinski-Harabasz指数(42.42 vs 15.80)和Davies-Bouldin指数(3.25 vs 5.23)均优于MoGCN,表明MOFA+能更有效捕捉乳腺癌异质性。
2. 非线性模型揭示组学特征协同作用
逻辑回归(LR)模型利用MOFA+特征获得最高F1分数(0.75),显著高于MoGCN(0.71)。值得注意的是,单独组学特征(如转录组)在两种方法中均无法通过线性模型(SVC)有效分类,凸显多组学整合的必要性。
3. 临床关联与通路富集验证生物意义
59%的MOFA+特征与肿瘤分期等临床变量显著相关。通路分析发现,MOFA+识别出121条关键通路(如Fc gamma R介导的吞噬作用和SNARE通路),比MoGCN多21条。这些通路涉及免疫应答(如Th1/Th2细胞分化)和肿瘤转移(如VEGF信号),为HER2+和Luminal B亚型的治疗提供了新靶点。
结论与意义
该研究首次系统比较了统计与深度学习在多组学整合中的性能,证实MOFA+在特征选择和生物学解释性上的优势。其发现的Fc gamma R和SNARE通路不仅深化了对乳腺癌免疫微环境的认识,还为开发针对难治性亚型(如HER2低表达)的联合疗法提供了理论依据。未来研究可进一步验证这些通路在独立队列中的临床价值,并探索多组学整合在个体化治疗决策中的应用潜力。
生物通微信公众号
知名企业招聘