
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于异常损失修剪的双区间平滑损失(OTDIS)提升噪声标签学习中的样本选择鲁棒性
【字体: 大 中 小 】 时间:2025年07月07日 来源:Neural Networks 6.0
编辑推荐:
为解决深度神经网络(DNNs)在噪声标签学习(LNL)中因损失值不稳定导致的样本选择误差问题,山西大学团队提出异常损失修剪的双区间平滑(OTDIS)损失函数。该方法通过时间维度的置信区间下界平滑和样本空间的聚类重组,显著提升样本选择准确性,在MNIST、CIFAR等数据集上验证了其优越性,为医疗诊断等需处理噪声数据的领域提供新工具。
在人工智能蓬勃发展的今天,深度神经网络(DNNs)如同一位天赋异禀的"学霸",在图像识别、医疗诊断等领域展现出惊人潜力。然而这位"学霸"却有个致命弱点——它对标注错误的训练数据极度敏感。现实中,由于众包标注、半自动标记等成本效益策略的广泛应用,数据集中的标签噪声如同混入美食的沙粒,让DNNs在训练过程中频频"消化不良"。更棘手的是,传统解决方案依赖单次训练的损失值判断样本清洁度,这就像仅凭一次考试就断定学生能力,极易因DNNs训练初期的不稳定性产生误判。
山西大学的研究团队在《Neural Networks》发表的这项研究,创新性地提出了OTDIS损失函数框架。该研究首先通过理论分析揭示了早期训练阶段异常损失对样本选择可靠性的影响机制,继而开发出融合时间动态与样本分布的双区间估计策略。具体采用历史迭代的异常修剪置信区间下界实现时间维度平滑,结合聚类重组实现空间维度校准,最终构建出包含负学习惩罚项的双极性训练目标。实验证明该方法在合成噪声数据集(MNIST、CIFAR)和真实噪声数据集(CIFAR-N、ANIMAL-10N)上,样本选择准确率平均提升12.7%,分类性能超越现有基准模型。
关键技术包括:1)基于移动窗口的时序置信区间估计,2)K-means聚类驱动的样本空间重组,3)整合负学习(Negative Learning)的双目标优化框架。研究采用标准图像数据集与真实医疗数据集验证,通过控制变量实验对比了传统小损失选择(Small-loss Selection)与OTDIS的性能差异。
【样本选择方法】
研究团队系统分析了DNNs的"记忆效应"(Memorization Effect),发现模型会优先学习清洁样本的简单模式。通过构建损失值的β分布概率模型,证实单次测量误差会导致15-22%的边界样本误分类。
【OTDIS损失函数】
创新性地提出双阶段校准:时间维度采用Winsorized截尾均值计算95%置信区间下界,消除训练前期的异常高损失;空间维度通过特征嵌入聚类,将同类样本划分为核心区与边界区,使清洁/噪声样本的损失分布差异扩大1.8倍。
【实验验证】
在40%对称噪声的CIFAR-10上,OTDIS的样本选择F1-score达到91.3%,较基准方法提升19.2%。特别在医疗数据集ANIMAL-10N中,对边界样本的识别准确率提高27.5%,证实其对真实场景复杂噪声的适应性。
这项研究的意义不仅在于技术层面的突破,更开创了"损失值可靠性工程"的新研究方向。OTDIS框架的时序-空间双维度校准思想,可延伸至医疗影像分析、基因组数据标注等对噪声敏感的领域。研究者特别指出,该方法在保持模型简洁性的同时,无需增加额外标注成本,为资源受限场景提供了实用解决方案。未来工作将探索动态区间调整机制,以应对非平稳分布噪声的挑战。
生物通微信公众号
知名企业招聘