适用于多视图数据的灵活解耦表示学习方法:基于软分割技术

《Image and Vision Computing》:Flexible disentangled representation learning with soft-splitting for multi-view data

【字体: 时间:2025年09月19日 来源:Image and Vision Computing 4.2

编辑推荐:

  多视图表示学习通过自适应软分割门控自编码器分离公共与独特特征,利用切片Wasserstein距离对齐公共表示,并通过门控融合单元动态融合多视图信息,实验表明该方法在五个真实数据集上显著优于现有方法。

  
Xunzhan Yao | Ming Yin | Yonghua Wang | Yi Guo
华南师范大学电子科学与工程学院,中国佛山

摘要

多视图表示学习在机器学习和计算机视觉领域受到了广泛关注。然而,现有方法在融合过程中往往未能充分利用不同视图之间的互补性,这可能导致表示信息纠缠,从而降低下游任务的性能。为此,我们在本文提出了一种新颖的灵活解耦多视图表示学习方法。具体而言,该学习方法采用自适应软分割多视图门控融合自动编码器网络(ASS-MVGFAE)来分离互补部分和一致性部分,而非传统方法中的硬分割方式。然后将解耦后的共同特征输入门控融合单元(GFU)进行对齐和融合,以实现用于下游聚类的共享潜在表示。在多个真实世界数据集上的广泛实验表明,我们的方法在多个评估指标上均优于现有最佳方法。

引言

迄今为止,计算机视觉领域经常使用多种特征和模态从不同角度描述视觉数据[1],例如RGB、深度、骨架等。图像处理研究已逐渐从传统的单视图视角发展为多视图视角[2]。为了充分利用多视图信息,在过去几十年中提出了许多多视图表示学习(MVRL)[3]方法,并取得了显著成功。在MVRL中,一致性和互补性信息共同构成了数据的核心特征。前者指的是不同视图之间的稳定和共同表示,而后者指的是每个视图特有的表示,提供了额外的信息[4]。
为了更好地融合多视图数据的信息,最近的进展引入了整合多学科理论见解的多种框架[5]、[6]。然而,大多数方法倾向于仅强调一致性和互补性表示的学习,忽略了它们之间的纠缠。简单融合多视图数据信息的方式可能会影响模型的可解释性和鲁棒性。为此,解耦表示学习(DRL)被用来明确地将潜在因素分离为语义独立的组成部分[7]。然而,实现潜在解耦表示的目标并非易事。在表示学习中施加了许多相似性约束,例如对比损失或最优传输距离(OTD)来对齐表示[8]。
在多视图学习中,捕捉视图特有语义的互补信息对于增强学习表示的区分能力至关重要。尽管一致性部分反映了共享结构,但互补性丰富了多样性,并提供了区分样本所需的线索。忽略这一点可能导致欠拟合或结果过于简化。此外,学习一致性表示通常通过简单平均[9]或硬分割嵌入[10]来实现,这忽略了不同视图之间一致性和互补性部分的比例差异。因此,这种静态处理特征维度的方式可能导致次优的表示和在聚类、分类、检测和生成等下游任务中的较差性能。
在本文中,我们提出了一种新颖的自适应软分割多视图门控融合自动编码器网络ASS-MVGFAE,用于学习多视图聚类的解耦表示。基于自动编码器(AE)[11]框架,ASS-MVGFAE将输入视图数据编码为低维嵌入,这些嵌入可以以一种新颖的软分割方式分割为共同信息和特有信息。具体来说,该模型通过生成一个连续可微的软分割掩码动态调整一致性和互补性部分之间的平衡,其分割参数是可学习的。这种可学习的掩码已在一些先前的工作中用于增强图像中的扰动[12]或修剪神经网络通道[13],以提高对抗性迁移能力或降低计算成本。相比之下,我们利用它来灵活地在潜在空间中实现语义解耦,这专门为我们的多视图数据设计。然后,为了更好地学习来自多个视图的一致性信息,设计了GFU来对齐和融合共同嵌入。至于特有嵌入,它被视为重建原始视图数据的补充表示。总结来说,本文的主要贡献如下:
  • 为了更好地分离多视图数据中的共同信息和特有信息,本文提出了一种新颖的自适应软分割多视图门控融合自动编码器网络ASS-MVGFAE。
  • 特别是,我们使用软分割掩码动态调整嵌入的共同信息和特有信息之间的比例。
  • 为了更好地融合共同嵌入,使用切片Wasserstein距离进行分布对齐,以便轻松学习共享表示。
  • 实验结果验证了我们的方法在五个真实多视图数据集上的出色性能。
本文的其余部分安排如下。第2节简要回顾了我们方法的相关工作。第3节详细介绍了软分割多视图门控融合自动编码器网络。第4节展示了实验结果,以验证所提模型的有效性。最后,在第5节得出结论。

部分摘录

多视图表示学习

多视图表示学习旨在捕获来自不同视图的一致性和互补信息[14]。现有方法通常分为协同训练策略、子空间学习和几种现代扩展。协同训练方法侧重于增强多个视图之间的一致性。例如,Kumar等人[15]引入了一种协同正则化谱聚类模型来最大化聚类一致性。在子空间学习中,Kamalika等人[16]应用了规范

方法论

在本节中,我们将详细描述ASS-MVGFAE,包括基于切片Wasserstein距离的软分割掩码解耦自动编码器和门控融合单元。

数据集

为了评估我们的模型,我们使用了几个知名的数据集,如MSRC-V1、100Leaves、Caltech101、ALOI和NUS-WIDE。它们的统计信息在表1中总结。更多详细信息如下。
  • MSRC-V1:该数据集包含210张对象图像,分为七个类别:树木、建筑物、飞机、牛、人脸和自行车。它提供了五种不同的特征视图,包括24维颜色矩(CM)和576维定向梯度直方图

结论

在本文中,提出了一种新颖的软分割多视图门控融合自动编码器网络(ASS-MVGFAE),用于执行多视图数据的灵活解耦表示学习。具体而言,首先通过自动编码学习潜在表示,然后以软分割方式分离共同信息和特有信息。最后,通过GFU融合视图共同部分以获得一致性表示。在多个数据集上的实验结果表明,我们的

CRediT作者贡献声明

Xunzhan Yao:撰写——原始草稿、验证、软件、方法论。Ming Yin:撰写——审阅与编辑、监督、方法论、概念化。Yonghua Wang:撰写——审阅与编辑、形式分析。Yi Guo:撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本项目得到了国家自然科学基金(编号:62376101)的部分支持,以及广东省基础与应用基础研究基金(编号:2024A1515240036)的部分支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号