
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于特征增强与随机标注的小样本目标检测正则化方法研究
【字体: 大 中 小 】 时间:2025年06月30日 来源:Neurocomputing 5.5
编辑推荐:
为解决小样本目标检测(FSOD)中样本稀缺导致的过拟合和泛化能力差问题,中国科学院大学团队提出结合特征增强(FARL)与随机标注的创新方法。通过特征插值与噪声注入生成合成样本,并引入损失函数上界作为隐式正则化约束(iFARL),在PASCAL VOC和MSCOCO数据集上实现SOTA性能。该研究为FSOD领域提供了可复用性强、计算成本低的优化方案。
在计算机视觉领域,目标检测(Object Detection)技术已广泛应用于自动驾驶、医疗影像分析等场景。然而传统深度学习方法需要海量标注数据,而现实世界中许多稀有类别(如罕见病病理特征)仅能获取少量样本。这种小样本目标检测(Few-Shot Object Detection, FSOD)场景下,现有模型易陷入过拟合困境——当面对与训练样本差异较大的测试样本时,分类器常将"猫"误判为"餐桌"并给出荒谬的高置信度,这种现象被研究者称为"错置置信度(misplaced confidence)"。
中国科学院大学的研究团队在《Neurocomputing》发表的研究中,创新性地将特征增强与随机标注策略相结合。他们发现FSOD性能瓶颈主要源于分类器而非区域提议网络(RPN),因此提出FARL框架:在微调阶段通过特征空间插值和噪声注入生成合成样本,同时引入随机标签来打破低质量样本带来的错误关联。更巧妙的是,团队通过数学推导将生成特征的交叉熵损失上界转化为隐式正则化项(iFARL),无需实际特征扩增即可实现正则化效果。实验证明该方法使DeFRCN基线模型在1-shot设定下mAP提升达4.7%,且首次提出通过分类器权重协方差矩阵特征值分析模型泛化能力。
关键技术包括:1) 基于PASCAL VOC和MSCOCO构建标准FSOD评估协议;2) 特征空间混合增强策略;3) 随机标签生成机制;4) 损失函数上界理论推导;5) 协方差矩阵特征值泛化分析框架。
【方法论】
研究采用两阶段训练范式:先在基类充足数据上预训练,再在包含基类/新类平衡数据的微调阶段引入FARL。核心创新在于:1) 对正样本特征进行线性插值(xnew=λxi+(1-λ)xj)与高斯噪声注入;2) 对30%合成样本随机分配标签以降低错置置信度;3) 推导出交叉熵损失上界L≤(1-α)Lorig+ακ,其中κ为可学习参数。
【实验结果】
在PASCAL VOC 10-shot设定下,FARL将novel类AP50从56.3%提升至61.0%。可视化分析显示,随机标签有效抑制了分类器对低质量样本的过度自信。协方差矩阵最大特征值较基线降低27%,证实模型泛化能力提升。
【结论】
该研究开创性地将显式特征增强与隐式正则化相结合,其提出的iFARL方案仅需修改损失函数即可实现性能提升,为资源受限场景提供实用解决方案。通过严格的数学推导和创新的评估体系,不仅推进了FSOD理论发展,更启示了正则化技术在计算机视觉中的新应用范式。研究代码已开源,可直接嵌入现有检测框架,具有显著的工程应用价值。
生物通微信公众号
知名企业招聘