半监督标签分布学习的全局因子分解与局部约束方法:破解缺失标签分布难题

【字体: 时间:2025年07月20日 来源:Neurocomputing 5.5

编辑推荐:

  针对半监督标签分布学习(SLDL)中缺失标签分布(SMLD)导致的关联挖掘难题,南京理工大学团队创新性提出全局独立成分分析(ICA)矩阵补全和局部改进k近邻(k-NN)的双策略,通过挖掘已知与未知标签分布(LD3)的共享关联,在67.27%案例中超越现有方法,为复杂语义标注任务提供新范式。

  

在机器学习领域,标签多义性(即单个样本同时关联多个标签)一直是棘手难题。标签分布学习(LDL)通过引入标签分布描述度(LD3),能更精准刻画标签与样本的关联强度,已成功应用于年龄估计、情感分析等领域。然而现实场景中,获取完整LD3标注成本高昂,导致大量样本存在缺失标签分布(SMLD)问题——这就像试图拼凑一幅缺失碎片的拼图,传统基于全监督的关联挖掘方法在此类半监督标签分布学习(SLDL)场景中捉襟见肘。

南京理工大学计算机科学与工程学院的研究团队在《Neurocomputing》发表的研究中,揭示了当前SLDL方法的根本缺陷:当70%标签分布缺失时,传统余弦相似度计算的标签相关性会出现显著偏差。为解决这一挑战,团队创新性地提出"双管齐下"策略——全局层面采用独立成分分析(ICA)进行标签矩阵补全,挖掘已知与未知标签分布的共性关联;局部层面改进k近邻(k-NN)框架,利用已标注样本的分布特征约束未标注样本的标签分布形态。这种全局因子分解与局部约束的协同机制,首次实现了SLDL场景下标签关联的精准挖掘。

关键技术方法包括:1) 基于ICA的标签矩阵低秩补全技术,从残缺标签分布中提取全局共享模式;2) 改进的k-NN局部约束算法,通过径向基函数加权构建样本相似性图;3) 采用Emotion6等6个基准数据集验证,通过余弦相似度可视化对比全监督与70%缺失场景的标签相关性差异。

研究结果方面:

  • 全局相关性挖掘:ICA矩阵补全成功还原了标签分布的低秩结构,实验显示该方法在酵母数据集上能将标签相关性误差降低32.6%。
  • 局部约束机制:改进的k-NN算法通过构建图拉普拉斯正则项,使相邻样本的标签分布平滑过渡,在头部姿态估计任务中平均准确率提升4.8%。
  • 综合性能:提出的SLDL-GFLC算法在67.27%的对比实验中超越现有方法,双样本t检验证实其改进具有统计学显著性(p<0.05)。

这项研究的突破性在于:首次系统解决了SLDL中"双重困境"——既缺乏挖掘未知标签关联的有效工具,又难以避免已有方法因数据缺失导致的偏差。通过将矩阵补全的全局视角与近邻约束的局部视角有机结合,不仅为复杂语义标注任务提供了新方法论,更开辟了利用不完整标注数据挖掘深层模式的研究路径。特别在医疗影像分析等标注成本高的领域,该方法能显著降低对专家标注的依赖,同时保持模型预测的可靠性。未来可进一步探索该框架在多模态学习、联邦学习等新兴场景中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号