
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多样化锚图融合的非对齐多视图聚类方法研究
【字体: 大 中 小 】 时间:2025年06月24日 来源:Pattern Recognition 7.5
编辑推荐:
针对非对齐多视图数据样本对应关系缺失导致的聚类难题,湖南大学团队提出多样化锚图融合(DAGF)方法。该方法通过构建视图特异性二分图、设计样本对齐策略和锚点整合机制,有效融合跨视图信息并保留互补结构特征,在保证线性时间复杂度的同时显著提升聚类性能,为大规模非对齐数据处理提供新思路。
在人工智能和大数据时代,多源异构数据如同城市中来自不同角度的监控画面——虽然捕捉的是同一场景,却因采集设备、时间或角度的差异导致画面无法完美对齐。这种现象在学术上被称为"非对齐多视图数据(Unaligned Multi-view Data)",其核心挑战在于样本跨视图的对应关系缺失。传统多视图聚类方法如多核学习(Multi-kernel Learning)或子空间学习(Subspace Learning)严重依赖样本对齐假设,直接应用于非对齐数据会导致性能断崖式下降。早期解决方案如Huang等提出的部分对齐方法虽有一定效果,但无法处理完全非对齐场景;而基于图的方法如Yu等提出的低秩表示对齐又面临计算复杂度高的瓶颈。
湖南大学研究团队在《Pattern Recognition》发表的这项研究,创新性地提出多样化锚图融合(Diversified Anchor Graph Fusion, DAGF)框架。该方法突破性地采用视图特异性锚点(View-specific Anchors)设计,配合样本重排矩阵和锚点整合策略,在保证O(n)线性时间复杂度的前提下,成功实现非对齐数据的跨视图信息融合与高效聚类。研究团队在多个真实数据集上的系统实验表明,DAGF在聚类精度和计算效率上均显著优于现有方法,为解决智慧城市、跨模态检索等场景中的非对齐数据处理提供了新范式。
关键技术方法
研究采用三大核心技术:1) 构建视图特异性二分图,适应非对齐数据特性;2) 设计样本对齐矩阵实现跨视图结构匹配;3) 通过锚点集整合策略保留互补信息。实验使用标准多视图数据集,通过对比ACC、NMI等指标验证性能,计算复杂度分析采用时间消耗与样本量的线性回归验证。
研究结果
Notations and the problem setting
明确定义非对齐多视图数据的数学表示:对于V个视图,第v视图数据矩阵X(v)∈Rdv×nv,其中样本顺序与其它视图不一致。提出核心优化目标是最小化跨视图对齐后的图结构差异。
The proposed method
Experiments
在Caltech-101和Reuters数据集上,DAGF的ACC达到68.7%和72.3%,较基线方法平均提升12.5%。计算时间测试显示,处理10,000样本时DAGF仅需153秒,而对比方法需2,187秒。
Conclusion
研究创新性地将锚点多样性引入非对齐多视图聚类:1) 视图特异性锚点设计突破传统锚点一致性限制;2) 联合优化框架同步实现样本对齐与信息融合;3) 线性复杂度使其成为首个可处理百万级非对齐数据的聚类方法。该成果为跨设备、跨平台的多源数据整合提供了理论基础和实用工具。
CRediT authorship contribution statement
侯澄平(Hou Chenping)团队在方法论创新和工程实现上形成互补:蒋宏宇(Jiang Hongyu)主导算法设计与实验,陶弘(Tao Hong)负责理论证明与框架构建,蒋章琦(Jiang Zhangqi)参与代码优化。这种"理论+算法+系统"的协同模式确保了方法的严谨性与实用性。
Declaration of competing interest
研究受国家自然科学基金(62476282)和湖南省自然科学基金(2023JJ20052)支持,相关技术已申请发明专利,体现出从学术创新到技术转化的完整链条。
生物通微信公众号
知名企业招聘