基于置信学习的众包数据非均匀噪声校正算法研究

【字体: 时间:2025年06月19日 来源:Pattern Recognition 7.5

编辑推荐:

  针对众包场景中标签噪声的非均匀性问题,中国地质大学(武汉)团队创新性地将置信学习框架引入众包领域,提出CLNC算法。该研究通过构建增强属性视图、基于类依赖置信阈值筛选高置信预测标签,并利用异构分类器校正噪声集,在模拟和真实数据集上显著降低了噪声比例,为复杂噪声环境下的众包数据质量提升提供了新范式。

  

在人工智能时代,海量标注数据的需求与标注成本之间的矛盾日益突出。众包平台通过分布式标注模式有效缓解了这一矛盾,但随之而来的标签噪声问题却成为制约模型性能的瓶颈。传统众包标签整合算法如多数投票(MV)虽能降低噪声,但忽略了关键问题:由于标注者认知偏差,不同类别的实例被误标的概率存在显著差异——这种被称为类条件噪声(CCN)的非均匀现象,使得现有噪声校正算法效果受限。

中国地质大学(武汉)计算机学院的Bingrui Su和Liangxiao Jiang团队敏锐捕捉到这一痛点,创新性地将置信学习框架引入众包领域,在《Pattern Recognition》发表题为"Confident learning-based noise correction for crowdsourcing"的研究。该工作提出的CLNC算法通过三重创新机制:基于多噪声标签构建的增强属性视图、类依赖置信阈值筛选、以及异构分类器协同校正,在模拟和真实数据集上将噪声比例平均降低23.7%,为复杂噪声环境下的数据质量提升树立了新标杆。

关键技术方法包括:1) 将原始属性与多噪声标签拼接构建增强视图训练分类器;2) 采用类依赖置信阈值筛选高置信预测标签;3) 通过原始整合标签与预测标签联合过滤获得干净集和噪声集;4) 在平衡类别比例基础上,用干净集训练KNN和SVM异构分类器校正噪声集。实验涵盖5个模拟数据集和3个真实众包数据集,对比7种基线方法,采用噪声比和分类准确率双指标评估。

Framework
研究基于CCN假设建立噪声转换矩阵Tij
=P(y?=i|y=j),提出众包场景下噪声非均匀性的三个观察:标注者更易混淆视觉相似类别;长尾分布中少数类更易被误标;标注者存在系统性偏好。CLNC算法流程分四步:首先通过增强视图训练获得类别依赖置信阈值τj
=Ex:y?=j
[P(y?=j|x)];其次筛选P(y?=j|x)>τj
的预测标签构建候选集;然后通过整合标签与预测标签交集确定干净集;最后用干净集训练KNN和SVM校正噪声集,其中KNN采用余弦相似度度量,SVM使用RBF核。

Experiments and results
在模拟数据集上,CLNC将噪声比例从MV的38.2%降至14.5%,优于最优基线DVNC的21.3%。真实数据集实验显示,在Sentiment数据集中CLNC噪声比仅9.8%,显著低于CWVNC的17.6%。消融实验证实:增强视图使准确率提升4.2%;类依赖阈值策略比全局阈值多过滤12.3%噪声;异构分类器比单一分类器校正准确率高3.8%。

Conclusions and future work
该研究首次将置信学习与众包噪声校正结合,突破性体现在三方面:1) 通过多噪声标签增强特征表示;2) 基于CCN假设设计类依赖过滤机制;3) 异构分类器协同校正策略。未来方向包括扩展到多模态众包数据、探索深度置信学习框架等。这项工作不仅为众包数据质量控制提供了新工具,更开创性地建立了非均匀噪声处理的理论框架,对医疗众包标注、社会感知计算等领域具有重要启示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号