通过数据重构和弹性双一致性学习实现部分视图对齐的聚类
《Expert Systems with Applications》:Partially View-aligned Clustering via Data Recoupling and Elastic Bi-consistency Learning
【字体:
大
中
小
】
时间:2025年09月19日
来源:Expert Systems with Applications 7.5
编辑推荐:
多视图聚类中的部分视图对齐问题及改进方法,提出PVC-DREBL方法通过数据重耦合和弹性双一致性学习提升聚类性能
现代多视角数据在实际应用中常常面临部分视角对齐的问题,然而大多数现有的多视角聚类(MVC)方法假设数据是完全对齐的,这种假设在现实场景中很少成立。这种不一致会导致虚假负对(False Negative Pairs, FNPs),从而干扰学习过程。虽然一些方法试图解决部分对齐问题,但它们往往忽视了视角内部的一致性以及多尺度视角之间的关系,限制了其捕捉全局和局部结构依赖的能力。此外,常用的均方误差(Mean Squared Error, MSE)作为重构损失在处理离散数据时并不理想,可能导致严重的性能下降。为克服这些局限,我们提出了一种基于数据重新对齐和弹性双一致性学习的多视角聚类方法,称为Partially View-aligned Clustering via Data Recoupling and Elastic Bi-consistency Learning(PVC-DREBL)。该方法融合了两个关键组件:(1)数据重新对齐模块,用于重新对齐数据以缓解FNPs的影响,同时利用指数对比损失增强学习稳定性并防止过拟合;(2)弹性双一致性学习模块,旨在稳健地重构多种数据类型,同时强制视角内部和多尺度视角间的一致性。在六个基准数据集上的广泛实验表明,PVC-DREBL显著优于现有方法,突显了其在处理部分视角对齐聚类任务中的有效性。
随着信息技术的快速发展,多视角数据在现实应用中变得越来越普遍。这些数据通常来自不同的来源或传感器,导致不同的特征表示。例如,一张图像可以使用方向梯度直方图(Histogram of Oriented Gradients, HOG)、尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)和局部二值模式(Local Binary Pattern, LBP)等方法进行描述。尽管多视角数据提供了丰富的信息,但其复杂性给人工标注带来了巨大挑战。为解决这一问题,多视角聚类(MVC)作为一种有效的无监督方法被开发出来,使得样本可以根据共享语义进行分组,而无需依赖人工标注。许多现有的MVC方法假设所有视角都是完全对齐的,这种假设被称为完全视角对齐问题(Fully View-aligned Problem, FVP)。然而,在现实场景中,由于数据缺失、传感器故障或观察不完整,这一假设往往不成立。因此,开发能够处理部分视角对齐问题(Partially View-aligned Problem, PVP)的方法至关重要,其中某些样本仅部分视角可用。
为有效应对PVP,研究人员探索了多种基于传统机器学习的策略。PVP的一个主要挑战在于存在大量FNPs,这需要在视角之间进行有效的重新对齐。为此,Dong等人使用了转换矩阵来对齐数据,但其无法捕捉高阶相关性,限制了其效果。为克服这一问题,Ji等人引入了多尺度张量融合模块,利用多尺度张量表示来提升对齐效果。此外,Cai等人提出了一种对齐方法,选择最优视角作为参考,并相应地对齐其他视角,同时结合自适应图学习以保留全局结构和局部一致性。虽然这些方法改进了数据对齐,但它们仍然受限于所学习的相似性图的质量,这些图往往对噪声和缺失数据敏感。随着深度学习的发展,出现了更多稳健的解决方案来处理PVP。Wang等人利用自编码器学习对齐的潜在表示,而Zhao等人则引入了一种基于优化的策略来细化映射矩阵。然而,这些方法仍然依赖于从部分视角对齐数据中提取的相似性图,这可能影响对齐的可靠性。为缓解这一问题,Sun等人首先将数据投影到更可分的潜在空间,再构建相似性图,从而增强对齐过程的稳健性。尽管上述方法可以基于特征信息部分调整FNPs,但仍有部分FNPs未被处理。为解决这一问题,Liu等人提出了一种更加灵活的c-均值方法,强制样本归属同一聚类,从而提高兼容性。这些进展不仅提高了聚类性能,也加深了对PVP的理论理解,为更有效的解决方案铺平了道路。
此外,不同层次的视角间和视角内的一致性关系存在,如何平衡这些关系是关键。许多研究已经围绕视角间一致性学习展开。早期的研究中,学者们主要使用统一表示融合策略来解决一致性学习问题。例如,Saha等人提出了一种等权重融合框架,但没有充分考虑不同视角的异质性。Wang等人改进了这一方法,引入了加权融合机制,动态调整视角权重以增强融合表示的一致性。进一步研究发现,视角间的一致性应体现在多个层次上,因此Chen等人提出了在多层特征上使用对比损失来增强一致性。为了在对比学习中引入一定程度的监督,Hu等人提出使用伪标签来指导对比过程,从而增强所学习表示的可区分性。在此基础上,为缓解不同视角间模态重要性不平衡带来的负面影响,Lou等人进一步提出了一种权重量化方法,用于建模视角间的模态相关性,从而减少不可靠模态对学习过程的影响。为了进一步增强视角间的空间关系一致性,Wang等人在多层一致性学习的基础上添加了相似性图一致性学习。上述方法均假设提取的表示处于特征层面,然而,它们可以是其他形式。因此,He等人将变分自编码器(Variational Autoencoders, VAEs)与贝叶斯理论结合,将多视角表示描述为概率分布,并通过KL散度进行一致性学习。此外,线性层对激活函数的选择具有很强的依赖性,限制了其特征捕捉能力。为解决这一限制,Zhang等人引入了一种基于Kolmogorov-Arnold网络的MVC方法,使得模型能够自适应学习合适的激活函数。然而,上述方法忽略了视角间的互补性。因此,Kumar等人首先引入了共正则化理论,以探索视角间的互补性。为从公共和私有特征中获取全面的语义信息,Dong等人提出使用跨视角拓扑图来平衡视角间的一致性和互补性。尽管这些方法促进了视角间一致性的发展,但研究人员仍主要使用基于对数函数的对比学习方法,这在一定程度上可能导致深度模型的过拟合。此外,视角内一致性同样重要,它确保了视角内部固有信息的稳定性,并允许学习视角特定的信息。在重构阶段,当前方法通常将均方误差(MSE)应用于潜在表示作为通用损失,这种方法在处理连续数据时表现良好,但在处理离散数据时会导致模型误差,从而阻碍进一步学习。因此,迫切需要一种新的视角内一致性学习方法,能够适应各种类型的数据。
基于上述洞察,我们提出了一种新的多视角聚类方法,用于解决PVP问题,称为基于数据重新对齐和弹性双一致性学习的多视角聚类方法(PVC-DREBL)。PVC-DREBL的整体框架如图1所示。具体而言,该方法由两个关键模块组成:(1)数据重新对齐模块:为解决部分对齐问题,我们首先提取潜在表示,并利用余弦相似性重新对齐它们。为了进一步增强编码器学习可靠分布的能力并缓解过拟合,我们设计了一种基于指数变换的对比损失函数。(2)弹性双一致性学习模块:认识到多视角数据通常存在于离散和连续形式之间的混合状态,我们提出了一种稳健的弹性重构方法,以保持视角内的一致性。同时,为了确保视角间的一致性,我们引入了一种在特征和标签层面运行的一致性对齐机制。总之,我们的方法不仅提高了部分视角对齐数据的对齐效果,还确保了多个视角之间的一致性,从而有效提升聚类性能。
在本研究中,我们提出了一个创新的多视角聚类方法,旨在解决部分视角对齐问题(PVP)。该方法通过数据重新对齐模块和弹性双一致性学习模块的结合,能够更有效地处理多视角数据的不一致性。数据重新对齐模块的核心思想是利用潜在表示和余弦相似性重新对齐数据,以减少FNPs对学习过程的干扰。同时,通过引入基于指数变换的对比损失函数,我们能够增强编码器的学习能力,防止模型过拟合。这一模块的设计使得模型能够在不同视角之间建立更稳健的关联,从而提高聚类效果。
弹性双一致性学习模块则聚焦于在不同数据类型之间保持视角内和视角间的一致性。我们提出了一种弹性重构方法,该方法能够处理离散和连续数据,从而增强视角内的一致性。此外,我们引入了样本级和标签级的一致性对齐机制,以确保不同视角之间的信息一致性。通过这些机制,模型能够在不同尺度和层次上捕捉视角间的关系,从而提高聚类的准确性和稳定性。
在实验部分,我们使用了Visual Studio Code版本1.95和Python版本3.8.11进行实验。实验环境配备了NVIDIA GeForce GTX 3090、GTX 4090 D和GTX 4090 GPU,以评估PVC-DREBL方法与十种最先进的对比方法的性能。通过在六个基准数据集上的测试,包括大规模数据集,我们验证了PVC-DREBL方法在处理PVP问题时的有效性。实验结果表明,该方法在FVP和PVP场景下均显著优于其他方法,证明了所提出的两个模块的可行性。
在本研究中,我们提出的PVC-DREBL方法不仅解决了部分视角对齐问题,还通过弹性双一致性学习机制,确保了多个视角之间的一致性。这一方法在处理多视角数据时具有更高的鲁棒性和适应性,能够在不同数据类型和不同视角之间建立有效的联系。通过数据重新对齐模块,我们能够减少FNPs对学习过程的干扰,同时利用指数对比损失增强模型的稳定性。通过弹性双一致性学习模块,我们能够在不同尺度和层次上捕捉视角间的一致性,从而提高聚类效果。
此外,我们还考虑了视角间和视角内的一致性关系。在视角间一致性学习方面,我们引入了样本级和标签级的一致性对齐机制,以确保不同视角之间的信息一致性。在视角内一致性学习方面,我们采用了弹性重构方法,该方法能够处理离散和连续数据,从而保持视角内的一致性。这些机制的结合使得PVC-DREBL方法在处理多视角数据时具有更高的鲁棒性和准确性。
通过实验验证,我们发现PVC-DREBL方法在多个基准数据集上均表现出色,尤其是在处理部分视角对齐数据时。与其他方法相比,PVC-DREBL方法在FVP和PVP场景下均取得了更高的聚类准确率和更好的鲁棒性。这些结果表明,我们的方法在处理多视角聚类任务时具有显著的优势,能够有效解决部分视角对齐问题。
综上所述,PVC-DREBL方法通过数据重新对齐和弹性双一致性学习机制,能够更有效地处理部分视角对齐问题。该方法不仅提高了数据对齐的效果,还确保了多个视角之间的一致性,从而显著提升了聚类性能。在实际应用中,这种方法能够适应各种类型的数据,并在不同场景下保持良好的鲁棒性和准确性。我们相信,PVC-DREBL方法为多视角聚类领域提供了一种新的思路,具有广泛的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号