
-
生物通官微
陪你抓住生命科技
跳动的脉搏
半监督标签分布学习的全局因子分解与局部约束方法:破解缺失标签分布难题
【字体: 大 中 小 】 时间:2025年07月20日 来源:Neurocomputing 5.5
编辑推荐:
针对半监督标签分布学习(SLDL)中缺失标签分布(SMLD)导致的关联挖掘难题,南京理工大学团队创新性提出全局独立成分分析(ICA)矩阵补全和局部改进k近邻(k-NN)的双策略,通过挖掘已知与未知标签分布(LD3)的共享关联,在67.27%案例中超越现有方法,为复杂语义标注任务提供新范式。
在机器学习领域,标签多义性(即单个样本同时关联多个标签)一直是棘手难题。标签分布学习(LDL)通过引入标签分布描述度(LD3),能更精准刻画标签与样本的关联强度,已成功应用于年龄估计、情感分析等领域。然而现实场景中,获取完整LD3标注成本高昂,导致大量样本存在缺失标签分布(SMLD)问题——这就像试图拼凑一幅缺失碎片的拼图,传统基于全监督的关联挖掘方法在此类半监督标签分布学习(SLDL)场景中捉襟见肘。
南京理工大学计算机科学与工程学院的研究团队在《Neurocomputing》发表的研究中,揭示了当前SLDL方法的根本缺陷:当70%标签分布缺失时,传统余弦相似度计算的标签相关性会出现显著偏差。为解决这一挑战,团队创新性地提出"双管齐下"策略——全局层面采用独立成分分析(ICA)进行标签矩阵补全,挖掘已知与未知标签分布的共性关联;局部层面改进k近邻(k-NN)框架,利用已标注样本的分布特征约束未标注样本的标签分布形态。这种全局因子分解与局部约束的协同机制,首次实现了SLDL场景下标签关联的精准挖掘。
关键技术方法包括:1) 基于ICA的标签矩阵低秩补全技术,从残缺标签分布中提取全局共享模式;2) 改进的k-NN局部约束算法,通过径向基函数加权构建样本相似性图;3) 采用Emotion6等6个基准数据集验证,通过余弦相似度可视化对比全监督与70%缺失场景的标签相关性差异。
研究结果方面:
这项研究的突破性在于:首次系统解决了SLDL中"双重困境"——既缺乏挖掘未知标签关联的有效工具,又难以避免已有方法因数据缺失导致的偏差。通过将矩阵补全的全局视角与近邻约束的局部视角有机结合,不仅为复杂语义标注任务提供了新方法论,更开辟了利用不完整标注数据挖掘深层模式的研究路径。特别在医疗影像分析等标注成本高的领域,该方法能显著降低对专家标注的依赖,同时保持模型预测的可靠性。未来可进一步探索该框架在多模态学习、联邦学习等新兴场景中的应用潜力。
生物通微信公众号
知名企业招聘