协调者:用于多视图聚类的语义协调动态融合方法

《Information Fusion》:Coordinator: Semantic-Coordinated Dynamic Fusion for Multi-View Clustering

【字体: 时间:2026年02月16日 来源:Information Fusion 15.5

编辑推荐:

  语义协调动态融合多视图聚类框架通过引入大型视觉语言模型实现跨视图语义对齐与动态权重优化,提出双向反馈机制协同优化视图编码器,在六种基准数据集上显著优于现有方法,有效解决异构数据融合瓶颈。

  
魏兰|郭英豪|陈庆丰|张世超|潘世瑞|周慧玉|潘毅
广西大学计算机、电子与信息学院,以及广西多媒体通信与网络技术重点实验室,中国南宁市530004

摘要

深度多视图聚类(DMVC)已成为分析来自多个视图的多复杂数据的重要方法。尽管现有的深度学习方法在提取视图特定特征方面表现良好,但它们往往忽略了视图间的高层次语义对齐。这可能导致特征模糊和结果不一致,尤其是在处理异构数据时。为了解决这个问题,我们提出了一个新颖的语义协调动态融合框架(Coordinator),将语义信息整合到多视图聚类中。具体来说,Coordinator利用大型视觉语言模型(LVLM)生成语义表示,并使用视图编码器提取视图特定特征。为了增强异构视图之间的一致性,Coordinator采用跨视图对齐模块来对齐不同视图的表示。此外,一种基于语义的融合策略动态地整合视觉和语义特征,从语义引导开始,逐渐过渡到数据驱动的视图加权。为了促进视图编码器的协同优化,Coordinator引入了一种双向反馈机制来改进视图编码器。在六个基准数据集上的广泛实验表明,Coordinator的性能优于现有的最先进方法,通过将语义知识融入多视图聚类有效地弥合了模态差异。

引言

近年来,深度多视图聚类(DMVC)由于其在图像分割[1]、对象检测[2]、生物信息学[3]和推荐系统[4]等领域的广泛应用而受到了越来越多的关注。DMVC旨在充分利用多源异构视图中的互补信息,将数据划分为有意义的聚类结构[5]、[6]。与传统的浅层聚类方法[7]相比,DMVC能够有效地捕捉视图内部和视图之间的复杂非线性结构,从而实现更准确和稳健的聚类性能[8]。
现有的DMVC方法主要分为两类:基于对比学习的方法和基于图神经网络的方法[9]、[10]。前者通过最大化正样本对之间的一致性来促进视图特定表示的对齐[11]、[12];后者通过学习结构化的图关系来捕捉不同视图之间的相似性[13]、[14]。尽管这些方法有效,但大多数方法仅关注低层次的视觉或结构特征,忽略了对于理解视图间类别级一致性至关重要的高层次语义信息[15]、[16]。
语义特征指的是描述样本概念意义的类别级和人类可解释的表示[17]、[18]。在多视图聚类中,语义特征可以作为重要的引导信号,帮助弥合不同视图之间的异质性差距[19]。通过利用外部知识或预训练模型,基于语义的方法在提高聚类质量方面显示出良好的效果[20]、[21]。一些最近的研究尝试将语义引导融入多视图融合[22]、[23],但它们仍然面临语义碎片化和静态融合策略的问题,这限制了它们动态适应不同视图质量和语义一致性的能力。
为了解决这些挑战,我们提出了一个名为“语义协调动态融合在多视图聚类中的框架(Coordinator)”,如图1所示。Coordinator利用大型视觉语言模型(LVLM)编码器生成类别级语义特征,而视图编码器提取视图特定特征。此外,我们引入了一种基于语义的融合策略,以确保跨模态一致性,并根据特征的质量动态调整视图贡献。与依赖静态融合权重的方法不同,Coordinator从强语义引导开始,逐步过渡到数据驱动的优化。这种方法有效地克服了语义视图不一致性和异构融合瓶颈的挑战。此外,双向反馈机制协同改进了视图编码器。因此,Coordinator超越了简单的特征级融合,实现了更高层次的语义理解,从而提高了聚类结果的可解释性和一致性。在六个基准数据集上的广泛实验证明了Coordinator的有效性。
本工作的主要贡献总结如下:
  • 我们提出了一个新颖的基于语义的多视图聚类框架,充分利用了当前大型视觉语言模型的先验知识。
  • 我们提出了一种基于语义的融合策略,以适应性地对多个视图和语义视图进行加权,实现了从早期语义引导到后期数据驱动优化的动态优化过程。
  • 我们引入了一种双向反馈机制,协同改进视图编码器。

章节摘录

深度多视图聚类

深度多视图聚类旨在通过利用同一样本的多个视图来联合学习特征表示。最近,对比学习被应用于促进增强视图之间的对齐。例如,Chao等人[24]设计了一个由高置信度伪标签引导的对比学习框架,实现了更稳健的多视图融合和聚类。Zhang等人[25]利用生成模型构建高质量的增强视图并强制视图

方法

本节介绍了我们的“语义协调动态融合聚类(Coordinator)”方法。如图2所示,Coordinator包括两个主要阶段。初始阶段专注于特征提取和对齐。具体来说,我们使用视图特定编码器和大型视觉语言模型(LVLM)编码器分别提取视图和语义表示,并确保视图特征之间的对齐。随后的阶段则执行基于语义的融合

实验

在本节中,我们评估了所提出的Coordinator,以回答四个关键问题:Q1:优越性。它是否优于现有的最先进的多视图聚类方法?Q2:有效性。基于语义的融合能否有效处理异构数据融合?Q3:必要性。每个关键组件是否对Coordinator的性能有所贡献?Q4:可解释性。我们能否通过可视化直观地理解Coordinator的内部工作原理和有效性?

结论

在本文中,我们提出了Coordinator,这是一个用于多视图聚类的新颖的语义协调动态融合框架。我们的框架有三个主要创新点。首先,它利用大型视觉语言模型生成高层次的语义特征。其次,它采用基于语义的融合策略,动态平衡初始的语义引导和后续的数据驱动优化。第三,双向反馈机制迭代改进所有视图编码器。
广泛的实验

未引用的引用

缺少引用图6

CRediT作者贡献声明

魏兰:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,资金获取,数据管理,概念化。 郭英豪:撰写 – 原始草稿,可视化,方法论,研究,撰写 – 审稿与编辑。 陈庆丰:撰写 – 审稿与编辑,监督。 张世超:撰写 – 审稿与编辑。 潘世瑞:撰写 – 审稿与编辑,监督。 周慧玉:撰写 – 审稿与编辑,监督。 潘毅:撰写 – 审稿与编辑,项目

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号