基于张量双曲正切-p范数最小化的快速多视图聚类方法研究

【字体: 时间:2025年07月26日 来源:Pattern Recognition 7.5

编辑推荐:

  针对大规模多视图数据聚类中计算复杂度高和低秩张量表示不准确的问题,研究人员提出基于锚点策略和新型张量双曲正切-p范数(THTpN)的快速多视图聚类方法FTHMC。该方法通过高效锚点选择降低计算负担,利用THTpN更精确逼近张量秩函数,在8个真实数据集上实现聚类性能与计算效率的双重突破,为大规模多视图分析建立新基准。

  

随着传感器技术的快速发展,多视图数据已成为医疗影像、生物信息学等领域的重要分析对象。这类数据通常包含同一对象的不同模态信息(如CT、MRI和病理图像),或不同来源的特征表达(如基因组、转录组和蛋白质组数据)。尽管多视图数据蕴含丰富的互补信息,但现有聚类方法面临两大瓶颈:传统矩阵方法在视图融合过程中存在信息损失,而基于张量的方法虽能直接建模高阶关联,却因计算复杂度高难以应用于大规模数据集。更关键的是,当前张量方法普遍采用核范数(TNN)逼近秩函数,会过度惩罚重要奇异值,导致关键结构信息丢失。这些限制使得现有方法在临床大规模多组学数据整合等场景中难以兼顾精度与效率。

针对上述挑战,中国国家自然科学基金支持的研究团队在《Pattern Recognition》发表创新成果。研究人员提出名为FTHMC的快速多视图聚类框架,其核心突破在于:1)引入BKHK锚点选择策略将计算复杂度从O(n3)降至O(mn2),m为锚点数;2)设计新型张量双曲正切-p范数(THTpN),通过有界连续函数更精准逼近秩函数。实验表明,该方法在8个基准数据集上不仅超越ATTN、RIMC等张量方法1.2-5.8%的聚类精度,其运行效率甚至优于矩阵类方法LMVSC、SFMC。

关键技术包括:1)基于平衡核k均值(BKHK)的锚点选择;2)构建锚表示张量替代全样本张量;3)THTpN最小化模型优化;4)快速傅里叶变换加速计算。研究采用Caltech101-7、NUS-WIDE等8个公开数据集验证,涵盖图像、文本多模态数据。

Anchor-based Fast Multi-view Clustering
通过BKHK算法选择代表性锚点,将传统n×n自表示矩阵压缩为m×n锚表示矩阵,使张量构建复杂度从O(Vn3)降至O(Vmn2),V为视图数。

Anchor Selection
BKHK算法结合核技巧与平衡约束,在UCI Digits数据集上验证其锚点质量比随机选择提升23.6%,且耗时仅为动态锚学习方法的1/7。

Tensor Hyperbolic Tangent-p Norm
THTpN定义为∑itanh(σip),其中σi为张量奇异值。该函数具有上界特性,在NUS-WIDE数据集上比TNN多保留12.4%的高阶信息。

Experiments
在100,000样本规模下,FTHMC运行时间仅为OrthNTF的1/9,且ACC、NMI指标平均提升4.3%和3.8%。THTpN参数p=0.5时取得最优平衡。

Conclusion
该研究首次将双曲正切函数引入张量秩近似,为大规模多视图分析提供新范式。理论证明THTpN满足非凸秩近似三大准则,其锚点策略可扩展至不完全多视图场景。未来工作将探索该框架在跨模态医疗数据整合中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号