
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于标签传播诱导的快速离散多视图协同聚类算法研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对图基多视图聚类中计算复杂度高、锚图概率特性利用不足及视图间互补信息缺失等问题,研究人员提出FDMVC_LP模型。该模型通过锚图标签传播策略联合优化样本与锚点标签,引入平衡正则项避免平凡解,并采用张量Schatten p-范数整合多视图低秩结构。实验验证其显著提升聚类性能,为大规模数据挖掘提供高效解决方案。
随着大数据时代的到来,数据维度和规模的爆炸式增长使得传统单视图聚类方法难以应对复杂场景。多视图聚类技术因其能整合多源数据互补信息而备受关注,其中图基方法通过捕捉数据几何结构显著提升聚类性能。然而,现有方法面临三重困境:一是构建图结构及拉普拉斯矩阵特征分解导致计算复杂度飙升;二是锚图应用中忽视其固有概率特性,需额外后处理步骤;三是多数算法仅关注视图内相似性而忽略视图间关联。这些问题严重制约了算法在大规模数据集上的实用性和准确性。
针对上述挑战,研究人员提出了一种创新性解决方案——基于标签传播诱导的快速离散多视图协同聚类模型(FDMVC_LP)。该研究通过四个关键技术突破实现优化:首先利用锚图标签传播策略揭示样本标签与锚点标签的关联性,实现两者协同优化;其次设计平衡正则项确保锚标签均匀分布,避免聚类退化;进而采用概念回归直接获取离散样本标签,省去传统k-means后处理;最后运用张量Schatten p-范数融合多视图标签矩阵的低秩互补信息。研究通过12个基准数据集验证,FDMVC_LP在ACC、NMI等指标上平均提升5%-8%,且时间复杂度降至O(nm)。
方法论
研究构建三阶段优化框架:1)基于锚图的标签传播模块建立样本-锚点标签关联矩阵;2)平衡约束模块通过KL散度正则项控制锚标签分布;3)多视图融合模块采用张量Schatten p-范数最小化目标函数。特别地,离散投影矩阵F∈{0,1}n×c
直接编码聚类结果,突破传统连续松弛限制。
实验结果
在Caltech101-7等数据集上的测试表明:1)与RMSC、SwMC等方法相比,FDMVC_LP平均运行时间缩短40%;2)锚标签平衡项使聚类纯度提升12.7%;3)Schatten p-范数(p=0.3时)能最优捕获视图间相关性。消融实验证实各模块贡献率为:标签传播(41.2%)>多视图融合(33.5%)>平衡约束(25.3%)。
结论与展望
该研究创新性地将标签传播理论与多视图聚类相结合,提出端到端的离散优化框架。其重要意义在于:1)首次在锚图中系统建模概率特性,推导出样本-锚点标签的显式关联;2)通过数学证明揭示平衡约束与聚类性能的量化关系;3)建立基于张量分解的多视图信息融合新范式。未来工作可拓展至动态流数据场景,并探索自动锚点选择机制。这项发表于《Expert Systems with Applications》的研究,为智能医疗中的多模态数据整合、金融风险群体划分等应用提供了理论基础。
生物通微信公众号
知名企业招聘