广义概率典型相关分析:面向全观测与部分观测多模态数据整合的新方法
《BMC Bioinformatics》:Generalized probabilistic canonical correlation analysis for multi-modal data integration with full or partial observations
【字体:
大
中
小
】
时间:2025年10月18日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对多模态数据整合中缺失值处理、跨模态信息互补等关键挑战,提出广义概率典型相关分析(GPCCA)模型。该研究通过概率框架统一处理多模态数据,支持超过两种模态的整合,并利用期望最大化算法直接处理缺失值,无需预先插补。实验表明,GPCCA在模拟数据和真实多组学数据中均优于现有方法,其低维嵌入能有效提升聚类精度并识别生物学相关特征,为生物信息学多模态分析提供了稳健工具。
随着生物医学研究进入多组学时代,同一批样本常同时产生基因组、转录组、蛋白组等多种模态数据。这些数据从不同层面刻画生物系统的复杂性,但如何有效整合它们却成为关键挑战。传统方法往往只能处理完整数据,而现实世界中因技术限制或样本损耗,多模态数据常存在部分缺失;此外,跨模态的共享信号与模态特异性信号交织,也增加了提取有效信息的难度。为此,杨天健(Tianjian Yang)与李薇薇(Wei Vivian Li)在《BMC Bioinformatics》发表研究,提出广义概率典型相关分析(Generalized Probabilistic Canonical Correlation Analysis, GPCCA),为多模态数据整合提供了一种灵活而强大的解决方案。
GPCCA的核心创新在于将经典典型相关分析(Canonical Correlation Analysis, CCA)扩展为概率生成模型。该模型假设每个模态的数据均由同一组低维潜变量生成,并通过块对角误差协方差矩阵刻画模态内特征间的相关性。为解决高维数据中协方差矩阵估计不稳定的问题,研究者引入岭正则化(ridge regularization)技术,有效提升模型泛化能力。此外,GPCCA内置期望最大化(Expectation-Maximization, EM)算法,可直接处理随机缺失(Missing At Random, MAR)与非随机缺失(Missing Not At Random, MNAR)情况,避免了对缺失值进行预先插补的步骤。
研究通过模拟数据与真实数据系统验证GPCCA的性能。在模拟实验中,GPCCA在正态分布、厚尾分布、跨模态相关等多种设定下均保持较高的聚类精度(以调整兰德指数Adjusted Rand Index, ARI和标准化互信息Normalized Mutual Information, NMI评估),显著优于多因子分析(MOFA)、相似性网络融合(Similarity Network Fusion, SNF)等现有方法。特别在模态整体缺失的MNAR场景下,GPCCA仍能有效识别真实类群,展现出对复杂缺失机制的鲁棒性。
在真实数据应用中,GPCCA进一步展示了其实用价值。基于手写数字多视图图像数据的研究显示,GPCCA整合四类特征模态(傅里叶系数、轮廓相关、Karhunen-Loeve系数与Zernike矩)后,其低维嵌入能清晰区分易混淆数字(如“6”与“9”),且在不同缺失率下均保持稳定聚类效果。在癌症多组学数据(来自TCGA的基因表达、DNA甲基化、microRNA表达)分析中,GPCCA所识别的患者亚群在生存时间上呈现显著差异,且其潜变量对应的基因特征显著富集于癌症相关基因数据库(OncoSearch),体现了模型的生物学可解释性。
研究主要采用概率建模与优化算法相结合的技术路线:首先建立多模态数据的联合概率生成模型,其中共享潜变量服从多元标准高斯分布;其次,通过EM算法迭代估计模型参数(包括载荷矩阵、均值向量与误差协方差矩阵),并引入岭正则化以稳定高维协方差估计;最后,基于潜变量嵌入进行Louvain聚类,并通过一致性评分选择最优潜变量维度。所有分析均基于R语言实现的GPCCA软件包完成。
通过在正态分布、厚尾分布、MNAR机制及跨模态相关等四种模拟设定下系统比较GPCCA与五种基线方法(PPCA、MOFA、SNF、NEMO、DGCCA),发现GPCCA在多数场景下聚类性能领先。尤其在模态内特征相关性较强(ρ ≥ 0.5)时,GPCCA的岭正则化有效提升了对噪声的抵抗能力;而在MNAR设定下,GPCCA无需对缺失机制进行建模仍能保持较高准确性,凸显其在实际应用中的优势。
应用GPCCA至手写数字图像数据(含四个特征模态)表明,多模态整合能弥补单一模态的判别盲区。例如,傅里叶系数与Zernike矩难以区分“6”和“9”,而轮廓相关模态对“0”与“8”的区分力较弱;GPCCA通过联合建模有效融合互补信息,在完整数据与缺失数据(最高达50%缺失率)下均实现优于90%的聚类一致性(ARI)。
在TCGA十大癌症类型的数据分析中,GPCCA所识别的患者亚群其生存时间差异显著(对数秩检验P值<0.05),且低维嵌入在Cox回归模型中显著提升生存预测效能(C-index提高)。进一步分析潜变量对应的基因载荷发现,高载荷基因在OncoSearch数据库中的富集程度显著高于背景基因,提示GPCCA能自动捕捉癌症相关生物标志物。
GPCCA为多模态数据整合提供了统一概率框架,其能力直接处理缺失值、支持多模态联合降维、并通过正则化技术增强模型稳定性。在模拟与真实数据中的广泛验证表明,GPCCA在聚类精度、鲁棒性与可解释性方面均优于现有方法。未来工作可进一步拓展模型至非高斯数据(如计数或二值数据),并探索基于变分推断的加速算法以应对更高维度的生物数据挑战。GPCCA的R软件包已开源,为生物信息学社区提供了便捷的多模态分析工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号