基于嵌入邻近学习的多视图聚类方法:在Grassmann流形上的动态语义挖掘
《Neurocomputing》:The embedding proximity learning for multi-view clustering
【字体:
大
中
小
】
时间:2025年11月04日
来源:Neurocomputing 6.5
编辑推荐:
本文推荐一项针对多视图聚类中高维噪声干扰和语义信息挖掘不足问题的创新研究。研究人员提出嵌入邻近学习方法(EPLMC),通过在Grassmann流形上构建统一嵌入表示,实现相似度矩阵的动态重构与多视图互补信息融合。该方法采用自加权框架优化视图差异权重,通过高效迭代算法同步学习相似度矩阵与统一嵌入。实验表明EPLMC在9个真实数据集上优于10种前沿方法,为复杂场景下的数据聚类提供新思路。
随着多媒体技术的快速发展,现实世界中的数据往往通过多个视角进行表征。例如在生物医学领域,特定药物可通过化学结构和细胞反应特征共同描述,而蛋白质功能则需通过测序数据和基因表达谱联合分析。多视图聚类作为机器学习的重要分支,旨在利用不同特征集之间的互补信息,将多视图数据划分为具有高度相似性的群组。然而,现有主流方法大多聚焦于从相似度矩阵中提取一致性结构特征,这种局限于同一潜在空间的聚类方式,容易受到高维噪声干扰,且难以充分挖掘非线性不可分数据中的语义信息。此外,构图方法的差异也会显著影响聚类结果的质量。
为解决这些挑战,华南理工大学未来技术学院的研究团队在《Neurocomputing》上发表题为"The embedding proximity learning for multi-view clustering"的研究论文,提出一种新颖的嵌入邻近学习方法EPLMC。该方法通过将各视图的相似度矩阵在Grassmann流形上重构为统一嵌入,有效增强语义信息提取能力并抑制高维噪声。这种嵌入表示与相似度矩阵之间形成相互促进的协同学习机制,同时引入自加权框架突出视图间差异性,最终实现相似度矩阵的动态优化构建。
关键技术方法包括:基于Grassmann流形的统一嵌入构建技术,通过重构各视图相似度矩阵形成凝聚性嵌入表示;自加权多视图融合框架,动态学习不同视图的权重系数;协同优化算法,同步更新相似度矩阵与统一嵌入;高效迭代求解策略,保证算法收敛性与计算效率。实验使用9个公共数据集,在Windows 10平台通过Matlab 2020b实现,与10种前沿方法进行对比验证。
研究方法章节详细阐述了EPLMC的理论基础。该方法首先对每个视图的相似度矩阵进行精细化处理,通过在Grassmann流形上的重构操作,形成具有语义一致性的统一嵌入。这种流形嵌入不仅能够捕捉数据的内在几何结构,还能有效过滤高维噪声。特别值得注意的是,该方法创新性地建立了相似度矩阵学习与统一嵌入学习的双向促进机制:统一嵌入的提升会反哺各视图相似度矩阵的表示质量,而优化后的相似度矩阵又会进一步改善嵌入效果。自加权框架的引入使得模型能够自动识别不同视图的重要性差异,从而更有效地整合互补信息。
实验部分通过系统性的验证证明了EPLMC的优越性。在九个真实数据集上的综合实验表明,该方法在聚类精度、标准化互信息等关键指标上均显著优于对比算法。特别是在处理高维噪声数据时,EPLMC展现出了更强的鲁棒性。消融实验进一步证实了各核心组件的有效性:Grassmann流形嵌入对语义信息提取贡献显著,而自加权机制则有效提升了多视图信息融合的质量。时间复杂度分析显示,该方法具有可扩展的计算效率,能够适应实际应用场景的需求。
结论部分指出,EPLMC通过在多视图聚类中引入嵌入邻近学习机制,成功解决了传统方法在语义信息挖掘和噪声抑制方面的局限性。该方法的核心价值在于建立了相似度矩阵与统一嵌入的协同学习范式,这种双向促进机制为多视图聚类研究提供了新的技术路径。展望未来,研究者计划将该方法扩展至大规模数据场景,并探索在生物信息学、医学影像分析等领域的实际应用。这项研究不仅推动了多视图聚类理论的发展,也为处理复杂多媒体数据提供了有效的技术工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号