基于模态贡献置信度增强的多模态深度学习框架在多组学数据分类中的创新应用
《BMC Bioinformatics》:A novel modality contribution confidence-enhanced multimodal deep learning framework for multiomics data
【字体:
大
中
小
】
时间:2025年11月01日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对多组学数据分类中存在的模态贡献偏差问题,提出了一种新颖的模态贡献置信度增强的多模态深度学习框架。该研究通过高斯过程分类器量化各模态预测置信度,结合KL散度对齐跨模态特征分布,在四个多组学数据集上的实验表明,该方法能有效提升分类性能,为生物医学多模态数据整合提供了新思路。
在当今生物医学研究领域,整合多组学数据已成为提升疾病分类准确性的重要途径。每种模态——从静态临床信息到基因组序列和蛋白质数据——都能提供独特的患者信息视角。然而,当研究人员尝试将这些异构数据源融合时,面临着一个棘手难题:不同模态对特定分类任务的贡献程度存在显著差异,而现有方法往往简单假设各模态贡献均等。
这种"模态偏差"问题在多组学数据分析中尤为突出。例如,在预测烧伤伤口恢复时间时,伤口大小和深度等静态特征通常与恢复时间直接相关,而来自烧伤组织的蛋白质数据可能相关性较弱。传统多模态学习方法平等对待所有模态,导致信息量较少的模态可能向联合表示空间引入噪声,反而降低分类性能。
更复杂的是,多组学数据还存在其他独特挑战。由于数据收集成本高昂,标记的多组学数据集通常规模较小,而整合多个模态会进一步增加输入维度,加剧维度灾难导致的过拟合问题。此外,不同组学数据类型常存在模态不对齐现象,部分原因是该领域尚未开发出强大的预训练骨干网络,且各模态的噪声特性也不同。
为解决这些挑战,张多益等人发表在《BMC Bioinformatics》上的研究提出了一种创新的模态贡献置信度增强学习框架。该研究的核心在于两个关键组件的协同作用:模态贡献置信度(MCC)和KL散度正则化。
MCC机制通过高斯过程分类器量化各模态的预测可靠性,作为一种非参数模型,GPC在小样本设置下不易过拟合,并能提供校准的不确定性估计。研究人员在每个训练周期开始时,从训练数据中随机抽取一个小子集,为每个模态训练独立的GPC,计算各模态正确预测标签的平均置信度作为其MCC得分。这些得分随后作为加权因子,在特征融合阶段调整各模态特定表示的贡献。
KL散度正则化则致力于解决多组学数据中的模态不对齐问题。通过约束潜在分布与标准高斯先验对齐,该方法鼓励跨模态的一致和互补特征表示,防止单个模态因分布不平衡而主导联合空间。
在技术方法上,作者构建了一个包含主网络和MCC估计路径的深度学习框架。主网络负责单模态特征嵌入、MCC引导的融合和最终分类;MCC路径则计算模态特定置信度。框架采用变分推理方法估计证据下界(ELBO),通过加权求和单模态后验分布实现多模态融合,其中权重由MCC值决定。
研究团队在四个多组学数据集上验证了提出的框架:ROSMAP(阿尔茨海默病分类,含mRNA和miRNA模态)、BRCA(乳腺癌分类,含DNA、mRNA和miRNA模态)、TCGA(乳腺癌分类,含基因表达、CNA和人口统计学模态)以及Blister(烧伤愈合预测,含静态和蛋白质组学模态)。实验比较了早期融合、晚期融合、中间融合和多种鲁棒多模态融合方法,评估指标包括分类准确率、宏F1和加权F1分数。
研究提出的网络架构包含三个顺序步骤:模态内特征学习、GPC和KL散度增强的特征融合以及分类。每个输入模态通过专用编码器(全连接层)处理,生成单模态特征分布。MCC模块计算权重,在融合前重新加权模态特定表示。加权特征组合后通过变分采样层,最终经全连接层和softmax激活产生预测结果。
与传统动态融合方法不同,该研究将模态加权与特征表示学习解耦,通过外部GPC计算模态权重,固定用于每个周期,消除了间接梯度项,优化过程更稳定。同时,MCC提供模态级可解释性,通过标量权重明确量化各模态贡献。
实验结果显示,提出的方法在四个多组学分类任务上 consistently 优于基线方法。在ROSMAP数据集上,该方法准确率达到89.6%,宏F1为88.1%;在BRCA数据集上,准确率为85.2%,宏F1为83.7%;在TCGA数据集上,准确率为82.1%,宏F1为80.3%;在Blister数据集上,准确率为76.4%,宏F1为74.2%。
与早期融合方法相比,该框架避免了在数据层面合并模态破坏模态内分布的问题;与晚期和中间融合方法相比,能有效平衡多模态学习,防止信息量最大的模态主导联合表示空间;与其他动态训练框架相比,通过KL散度正则化学习空间,更好地对齐多模态,在小数据集上表现出更强鲁棒性。
为验证各组件贡献,研究进行了消融实验,比较了完整模型与去除MCC、去除KL散度以及仅使用高斯过程分类器的变体。结果显示,去除MCC导致对信息量大的模态过学习,对信息量小的模态欠学习;去除KL散度则因缺乏对联合空间的规整而过拟合;仅使用GP虽能通过核方法建模方差,但深度学习方法的整体性能更优。
KL散度的重要性通过潜在空间可视化得到进一步证实。t-SNE可视化显示,加入KL散度后,BRCA测试数据集的潜在表示呈现更紧凑的簇和更清晰的决策边界,特别是少数类HER2富集与Luminal A类之间分离更好,表明KL散度有助于跨多数类和少数类的更鲁棒决策边界。
在噪声扰动测试中,研究者在BRCA数据集的一个模态中注入5%、10%和20%的随机噪声。结果显示,完整模型相对其他消融模型对噪声更具鲁棒性,这归功于GPC的指导和联合特征空间的对齐。
模态组合分析表明,提出的方法能有效平衡模态贡献。在TCGA数据集上,基因表达单模态预测能力最强,但与人口统计学和CNA组合时性能仍能提升,表明模型能平衡信息量较少的模态学习,避免其主导或稀释整体预测。
敏感性分析显示,控制KL散度影响的超参数β需要仔细调整,过大值会过度约束联合表示空间学习,过小值则失去KL散度规整作用。RBF核带宽分析表明,带宽为10时所有评估指标在BRCA数据集上达到峰值。
在烧伤恢复案例研究中,模型使用包含144名患者的数据集,含静态(7特征)和蛋白质组学(508特征)两模态,预测患者在一周、两周、一月或更长时间内恢复。研究发现静态模态权重始终高于蛋白质组学模态,与特征重要性分析一致,静态特征中有四个被列为最具影响力生物标志物之一。识别出的蛋白质组学生物标志物与现有烧伤恢复研究一致,验证了模型的生物学相关性。
该研究提出的MCC增强多模态学习框架通过创新性地结合高斯过程置信度估计和KL散度对齐,有效解决了多组学数据分类中的模态偏差问题。框架不仅提升了分类性能,还通过解耦模态加权与特征学习增强了训练稳定性和模型可解释性。
研究的主要意义在于为多组学数据整合提供了一种新的范式,既尊重各模态的固有信息量差异,又通过分布对齐促进跨模态协同。这在生物医学应用中尤为重要,因为理解哪些数据源驱动预测对于建立信任和透明度至关重要。
尽管GP-based估计引入了额外计算开销,但研究团队已通过使用训练数据小子集保持可操作性。未来工作方向包括探索早期停止或权重冻结等优化策略,以及进一步增强方法的可解释性。该框架为小样本、高维多组学数据的鲁棒分析提供了有力工具,有望在精准医疗和生物标志物发现中发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号