一种用于多视图聚类的双重自动加权策略
《Engineering Applications of Artificial Intelligence》:A double auto-weighted strategy for multi-view clustering
【字体:
大
中
小
】
时间:2025年11月22日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
多视图聚类中提出双重自适应加权策略,通过自动加权数据重构误差缓解冗余特征和噪声影响,并构建新型加权指数张量核范数AWETNN有效利用高阶关联与结构信息,结合增广拉格朗日乘数法实现高效优化。实验表明DAWS在精度和稳定性上优于十种现有算法。
多视角聚类(Multi-View Clustering, MVC)是一种通过整合多个视角的信息,提升聚类结果精度与稳定性的方法。随着数据的复杂性和多样性不断增长,传统的单视角聚类算法在面对多源数据时往往显得力不从心。MVC算法通过融合多个视角的特征,使得聚类模型能够更全面地理解数据的结构和模式,从而在实际应用中表现出更强的适应性和鲁棒性。然而,现有的MVC方法在处理噪声数据和利用高阶相关性方面仍存在局限性,导致聚类效果受到影响。为此,研究者们提出了多种改进策略,旨在提高算法的鲁棒性和聚类性能。
在实际应用中,多视角数据通常来源于不同的传感器、不同的数据采集方式或不同的特征提取手段。例如,在生物信息学领域,基因表达数据可能来自不同的实验平台,每个平台的测量方式略有不同,因此可能会引入不同的噪声。在社交网络分析中,用户的行为数据可能包括文本、图片、视频等多种形式,每种形式都可能反映用户的不同侧面。而在计算机视觉中,图像可能由不同的摄像头、不同的光照条件或不同的预处理步骤生成,从而形成多个视角的数据。这些多视角数据不仅包含了丰富的信息,也可能伴随着噪声和冗余特征,影响聚类的准确性。
为了解决这些问题,研究人员不断探索新的算法和方法,试图在不同视角之间建立更紧密的联系,同时减少噪声和冗余特征对聚类结果的影响。其中,低秩约束、图建模、自表达学习等技术被广泛应用于MVC算法中。低秩约束能够捕捉数据的潜在结构,图建模则可以用于建模视角之间的关系,而自表达学习则允许每个样本通过其他样本的线性组合来表示,从而增强模型的鲁棒性。这些方法在提升聚类效果方面取得了显著进展,但仍存在一些不足,例如对噪声的处理不够细致,或者未能充分考虑视角之间的高阶相关性。
近年来,研究者们尝试引入更复杂的数学工具来优化MVC算法,例如张量方法。张量作为一种高维数据结构,能够自然地表示多视角数据,并且通过张量核范数(Tensor Nuclear Norm, TNN)等约束条件,捕捉数据的潜在结构和视角之间的关系。然而,TNN对所有奇异值赋予相同的权重,这可能会导致对某些重要特征的忽略,尤其是在存在噪声和冗余的情况下。因此,如何在保持张量低秩性质的同时,赋予不同的奇异值不同的权重,成为了一个重要的研究方向。
基于此,本文提出了一种双自动加权策略用于多视角聚类(Double Auto-Weighted Strategy for Multi-View Clustering, DAWS)。该方法旨在解决当前MVC算法在处理噪声和冗余特征时的不足,同时更有效地利用视角之间的高阶相关性和潜在结构信息。DAWS的核心思想是通过两个阶段的自动加权策略,分别对数据的重构误差和张量的奇异值进行加权处理,从而提升聚类的鲁棒性和准确性。
在第一阶段,DAWS引入了一种基于数据重构误差的自动加权策略。具体而言,该策略允许每个视角的特征根据其重构误差的大小进行动态调整。对于重构误差较大的特征,DAWS会赋予较小的权重,以减少其对聚类结果的影响;而对于重构误差较小的重要特征,则赋予较大的权重,以确保其在聚类过程中得到充分考虑。这种策略能够有效抑制噪声和冗余特征的干扰,使得聚类结果更加稳定和准确。
在第二阶段,DAWS通过将多个视角的相似性图融合为一个张量,并引入一种新的自动加权指数张量核范数(Automatically Weighted Exponential Tensor Nuclear Norm, AWETNN)来约束该张量。与传统的张量核范数不同,AWETNN利用了一个非凸的惩罚函数,以考虑不同奇异值之间的物理差异。这种非凸惩罚函数能够更精细地控制奇异值的权重,使得张量的低秩性质得以保留,同时更有效地捕捉视角之间的高阶相关性和潜在结构信息。通过这种方式,DAWS能够在不丢失重要信息的前提下,减少噪声对聚类结果的影响,从而提升算法的整体性能。
为了实现这两个阶段的自动加权策略,DAWS采用了一种统一的框架,将它们整合在一起。该框架基于增强拉格朗日乘数法(Augmented Lagrange Multiplier, ALM),能够高效地优化目标函数,并在有限的迭代次数内达到收敛。实验结果表明,DAWS在多个不同数据集上的表现优于现有的多种MVC算法,同时其收敛速度也较快,通常在15至35次迭代内即可完成。这表明DAWS不仅在理论上具有创新性,在实际应用中也表现出良好的性能。
在本文的实验部分,我们对DAWS进行了广泛的测试,涵盖了六个不同的数据集,并与十种现有的MVC算法进行了比较。实验结果表明,DAWS在多个性能指标上均优于其他方法,例如聚类精度(Clustering Accuracy, CA)、归一化互信息(Normalized Mutual Information, NMI)和调整兰德指数(Adjusted Rand Index, ARI)。这些指标反映了聚类结果与真实标签之间的匹配程度,以及算法对数据结构的捕捉能力。DAWS的优异表现不仅体现在这些指标上,还体现在其对噪声和冗余特征的鲁棒性上,使得在不同数据环境下都能保持较高的聚类效果。
此外,本文还对DAWS的理论基础进行了深入探讨。首先,我们介绍了自动加权学习(Auto-Weighted Learning, AWL)的概念,这是DAWS方法的核心思想之一。AWL允许每个视角的特征根据其重构误差的大小进行动态调整,从而在不影响整体模型性能的前提下,减少噪声和冗余特征的干扰。其次,我们提出了一种新的张量核范数的替代方案——自动加权指数张量核范数(AWETNN)。该方法通过非凸惩罚函数,对不同奇异值赋予不同的权重,从而更精确地捕捉视角之间的高阶相关性和潜在结构信息。
在实际应用中,DAWS的优势体现在多个方面。首先,它能够有效处理噪声数据,减少噪声对聚类结果的影响。其次,它能够充分利用多视角数据中的高阶相关性和潜在结构信息,从而提升聚类的准确性。最后,DAWS的收敛速度较快,能够在较少的迭代次数内完成优化,使得算法在实际应用中更加高效。这些优势使得DAWS成为一种适用于复杂多视角数据的新型聚类方法。
为了验证DAWS的有效性,我们进行了大量的实验测试,并对实验结果进行了详细分析。实验结果表明,DAWS在多个数据集上的表现均优于其他现有的MVC算法,特别是在处理噪声数据和冗余特征时,其鲁棒性表现尤为突出。此外,DAWS的收敛速度也优于大多数其他方法,这使得它在实际应用中具有更高的计算效率。这些实验结果不仅证明了DAWS的优越性,也为未来的研究提供了新的思路和方向。
本文的主要贡献包括三个方面。首先,我们提出了一种新的MVC方法,即DAWS,该方法能够有效减少冗余特征和噪声对聚类结果的影响。其次,我们设计了一种新的自动加权指数张量核范数(AWETNN),该方法能够更精确地捕捉视角之间的高阶相关性和潜在结构信息。最后,我们构建了一个统一的框架,将自动加权策略、低秩张量学习和自表达学习结合起来,使得DAWS在理论上和实践上都具有较强的竞争力。
在实际应用中,DAWS可以用于多种场景,例如生物信息学中的基因表达分析、社交网络分析中的用户行为建模,以及计算机视觉中的图像分类和目标检测等。通过融合多个视角的信息,DAWS能够更全面地理解数据的结构和模式,从而提高聚类的准确性和稳定性。此外,DAWS的鲁棒性也使其在处理噪声数据和不完整数据时表现出色,这在实际数据处理中尤为重要。
为了进一步验证DAWS的性能,我们还对算法的计算效率进行了评估。通过对比不同算法的运行时间,我们发现DAWS在大多数情况下都能在较短的时间内完成聚类任务,这表明其在实际应用中具有较高的计算效率。此外,我们还对算法的可扩展性进行了分析,发现DAWS能够很好地适应大规模数据集,这为其在实际应用中的推广提供了可能。
总的来说,DAWS作为一种新型的多视角聚类方法,具有较强的鲁棒性和较高的聚类精度。通过引入双自动加权策略,DAWS能够有效减少噪声和冗余特征对聚类结果的影响,同时更精确地捕捉多视角数据中的高阶相关性和潜在结构信息。实验结果表明,DAWS在多个数据集上的表现优于现有的多种MVC算法,且具有较快的收敛速度和较高的计算效率。这些优势使得DAWS在实际应用中具有广阔的发展前景,同时也为未来的研究提供了新的思路和方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号