基于多样化锚图融合的非对齐多视图聚类方法研究

【字体: 时间:2025年06月24日 来源:Pattern Recognition 7.5

编辑推荐:

  针对非对齐多视图数据样本对应关系缺失导致的聚类难题,湖南大学团队提出多样化锚图融合(DAGF)方法。该方法通过构建视图特异性二分图、设计样本对齐策略和锚点整合机制,有效融合跨视图信息并保留互补结构特征,在保证线性时间复杂度的同时显著提升聚类性能,为大规模非对齐数据处理提供新思路。

  

在人工智能和大数据时代,多源异构数据如同城市中来自不同角度的监控画面——虽然捕捉的是同一场景,却因采集设备、时间或角度的差异导致画面无法完美对齐。这种现象在学术上被称为"非对齐多视图数据(Unaligned Multi-view Data)",其核心挑战在于样本跨视图的对应关系缺失。传统多视图聚类方法如多核学习(Multi-kernel Learning)或子空间学习(Subspace Learning)严重依赖样本对齐假设,直接应用于非对齐数据会导致性能断崖式下降。早期解决方案如Huang等提出的部分对齐方法虽有一定效果,但无法处理完全非对齐场景;而基于图的方法如Yu等提出的低秩表示对齐又面临计算复杂度高的瓶颈。

湖南大学研究团队在《Pattern Recognition》发表的这项研究,创新性地提出多样化锚图融合(Diversified Anchor Graph Fusion, DAGF)框架。该方法突破性地采用视图特异性锚点(View-specific Anchors)设计,配合样本重排矩阵和锚点整合策略,在保证O(n)线性时间复杂度的前提下,成功实现非对齐数据的跨视图信息融合与高效聚类。研究团队在多个真实数据集上的系统实验表明,DAGF在聚类精度和计算效率上均显著优于现有方法,为解决智慧城市、跨模态检索等场景中的非对齐数据处理提供了新范式。

关键技术方法
研究采用三大核心技术:1) 构建视图特异性二分图,适应非对齐数据特性;2) 设计样本对齐矩阵实现跨视图结构匹配;3) 通过锚点集整合策略保留互补信息。实验使用标准多视图数据集,通过对比ACC、NMI等指标验证性能,计算复杂度分析采用时间消耗与样本量的线性回归验证。

研究结果

Notations and the problem setting
明确定义非对齐多视图数据的数学表示:对于V个视图,第v视图数据矩阵X(v)∈Rdv×nv,其中样本顺序与其它视图不一致。提出核心优化目标是最小化跨视图对齐后的图结构差异。

The proposed method

  1. 锚图构建阶段:各视图独立选择mv个锚点,构建二分图B(v)∈Rnv×mv
  2. 样本对齐阶段:引入排列矩阵P(v)对齐不同视图的样本顺序;
  3. 锚点融合阶段:合并所有视图锚点形成统一锚集∪mv,通过低秩约束学习联合二分图B*。

Experiments
在Caltech-101和Reuters数据集上,DAGF的ACC达到68.7%和72.3%,较基线方法平均提升12.5%。计算时间测试显示,处理10,000样本时DAGF仅需153秒,而对比方法需2,187秒。

Conclusion
研究创新性地将锚点多样性引入非对齐多视图聚类:1) 视图特异性锚点设计突破传统锚点一致性限制;2) 联合优化框架同步实现样本对齐与信息融合;3) 线性复杂度使其成为首个可处理百万级非对齐数据的聚类方法。该成果为跨设备、跨平台的多源数据整合提供了理论基础和实用工具。

CRediT authorship contribution statement
侯澄平(Hou Chenping)团队在方法论创新和工程实现上形成互补:蒋宏宇(Jiang Hongyu)主导算法设计与实验,陶弘(Tao Hong)负责理论证明与框架构建,蒋章琦(Jiang Zhangqi)参与代码优化。这种"理论+算法+系统"的协同模式确保了方法的严谨性与实用性。

Declaration of competing interest
研究受国家自然科学基金(62476282)和湖南省自然科学基金(2023JJ20052)支持,相关技术已申请发明专利,体现出从学术创新到技术转化的完整链条。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号