通过硬负样本挖掘提高建筑对象检测中的跨站点泛化能力

《AUTOMATION IN CONSTRUCTION》:Improving cross-site generalization in construction object detection via hard negative mining

【字体: 时间:2026年01月10日 来源:AUTOMATION IN CONSTRUCTION 11.5

编辑推荐:

  施工安全智能监控中跨站点硬负样本挖掘方法研究,通过复用不同工地的误检样本作为目标工地的困难负样本,有效抑制数据集特有噪声,提升模型泛化能力。实验表明单模型mAP达57.58%,与六折集成方法相当且推理速度不变。理论分析采用Ben-David界限论证跨域负采样对减少领域偏移的作用,并提出二维灵敏度分析与LS-CC阈值优化策略。方法适用于YOLOv11、Faster R-CNN、DETR等多种架构,为低成本、高泛化施工安全检测提供解决方案。

  
作者:Seong Jaehwan、Kim Hyung-soo、Jung Hyung-Jo
韩国科学技术院(KAIST)土木与环境工程系,大田 34141

摘要

本文介绍了Cross Hard Negative Mining(Cross-HNM)方法,该方法将跨站点的误检测结果重新利用为硬负样本,用于构建适用于多个领域的施工现场物体检测模型。通过训练针对不同站点的子模型来提取其他站点的误检测结果,Cross-HNM利用跨站点之间的结构特征来抑制数据集特有的噪声。在11个站点和5个未见过测试站点上的评估显示,单个Cross-HNM模型的平均精度(mAP)达到了57.58%,其性能与不使用推理开销的6倍集成方法相当。利用Ben-David界限进行的理论分析阐明了跨站点负样本如何减少领域差异以及泛化误差的上限。通过2D敏感性分析和LS-CC方法确定了最优阈值。该方法的性能提升可以转移到包括YOLOv11、Faster R-CNN和DETR在内的多种架构上。由于数据挖掘和LS-CC过程是离线的,因此最终检测器的运行时间保持不变。因此,Cross-HNM为在多样化和未见过的环境中实现智能施工现场安全监控提供了一种实用且可扩展的解决方案。

引言

根据美国职业安全与健康管理局(OSHA)、中国住房和城乡建设部(MOHURD)以及韩国职业安全与健康机构(KOSHA)等主要国家机构的报告,建筑行业在全球范围内属于职业事故风险最高的行业之一[[1], [2], [3]]。为了降低这些风险,许多国家采用了各种建筑安全技术,最近基于计算机视觉的技术已成为确保施工现场安全管理的核心方法[[4], [5], [6]]。计算机视觉技术,如图像分类、物体检测和分割,被广泛用于从施工现场安装的CCTV录像中提取有意义的视觉信息。这些技术构成了智能安全管理系统的基础,并已应用于识别未经授权的进入限制区域、检测跌落风险、防止与设备碰撞以及分析工人与机械之间的互动等实际任务[[7], [8], [9], [10], [11]]。
由于计算机视觉技术具有较高的视觉识别能力,学术界和工业界一直在积极研究其在建筑安全监控中的应用。然而,当将物体检测模型应用于实际施工现场时,使用COCO或Pascal VOC等通用数据集训练的模型往往会因领域差异而出现性能下降[[12], [13], [14]]。源领域和目标领域之间的相机视角、物体大小、照明条件以及背景杂乱程度的变化会导致误检测或漏检。这个问题严重影响了自动化监控系统的可靠性,尤其是在变化大且控制不佳的施工现场。一种常见的解决方案是从目标现场收集数据,并使用手动标注的图像重新训练模型。虽然这种方法可以提高新领域的准确性,但它非常耗时且劳动密集[[15]]。对于中小型建设项目来说,这种负担变得不切实际,因为这些项目往往缺乏进行大规模数据标注和重新训练所需的财务和技术资源。
为了在提高泛化能力的同时降低标注成本,已经提出了几种替代方案。Kim和Chi[16]提出了一种主动学习方法,该方法从目标领域中选择不确定的样本进行优先标注。尽管这种方法减少了所需的数据集规模,但它仍然依赖于人工标注和具有可接受基线性能的预训练模型。其他研究探索了使用合成数据来增强训练的方法。Soltani等人[17]通过将建筑设备的3D模型与真实的建筑背景结合生成了合成图像,而Neuhausen等人[18]和Assadzadeh等人[19]则利用3D仿真和领域随机化来创建训练数据集。这些方法提供了大量数据,并提高了模型的鲁棒性。然而,由于合成图像与真实图像之间存在固有的视觉差异,领域差异仍然存在。最近,半监督领域适应技术也得到了研究。Hong等人[20]结合数据增强、无监督特征对齐和知识蒸馏来提高目标领域的分割性能。
传统方法仍然局限于特定的目标对象和任务,并需要部分人工监督,限制了其完全自动化的可能性。鉴于现有方法的局限性,迫切需要不需要新的标注数据或领域特定仿真的物体检测策略。其中一个方向是Hard Negative Mining(HNM),它通过引入可能与目标对象混淆的难处理背景样本来提高模型的鲁棒性。然而,传统的HNM方法通常依赖于预定义的负样本定义,在复杂和模糊的施工现场环境中应用这些定义较为困难。领域内挖掘也有过度拟合于特定站点模式的风险,从而限制了模型的泛化能力。
在本文中,我们提出了用于施工现场检测的Cross-Hard Negative Mining(Cross-HNM)方法,该方法将跨站点的误检测结果重新利用为硬负样本,以识别在不同站点中反复出现的特定于领域的相似模式。与传统仅在单一数据集中挖掘难处理样本的硬负样本的方法不同,Cross-HNM有意识地利用跨站点的预测结果以及跨站点的共识,并对负样本与正样本的比例进行限制,从而强调具有语义意义但未标注的背景对象(例如脚手架、临时标志),同时抑制特殊特征。该方法被构建为一个操作设计,其灵感来源于领域差异的共享/私有分解,并实现了一个在检测过程中使用但在评估时移除的显式负样本处理模块(在评估时该模块不具有语义功能)。我们的结论基于YOLOv11-nano模型作为主要检测器,并为各种模型架构提供了补充验证。

参考文献

文献综述

在最近的计算机视觉研究中,提高未见过的建筑环境中的物体检测性能是一个关键焦点。旨在增强跨站点泛化能力的先前方法可以根据它们处理学习策略的方式分为四类方法。
  • (1)
    主动学习方法:主动学习旨在通过选择信息丰富或不确定的样本进行标注来减少标注工作量。Kim和Chi[16]提出了一种基于少量样本的主动学习框架
  • 提出的方法论

    在本节中,我们阐述了Cross Hard Negative Mining(Cross-HNM)的理论有效性,并在此基础上提出了一个具体框架,该框架规范了跨站点误检测样本的挖掘过程及其在领域变化下的集成方法,以实现鲁棒的泛化。

    实验

    为了评估通过Cross Hard Negative Mining生成的负标签的有效性,我们进行了一系列实验。这些实验旨在与传统方法进行比较,并调整Cross Hard Negative Mining的参数,例如IoU阈值和置信度阈值,以最大化挖掘到的负标签的影响。

    结论

    本文提出了一种用于施工现场物体检测的Cross Hard Negative Mining方法。Cross-HNM实现了跨站点的硬负样本监督,与仅挖掘数据集内部样本的通用硬负样本挖掘方案相比,Cross-HNM明确利用了多站点之间的结构特征,区分了特定于领域的模式和数据集特有的噪声,并将这种设计与基于LS-CC的简单阈值选择策略相结合。它在检测过程中使用了一个显式的负样本处理模块

    CRediT作者贡献声明

    Seong Jaehwan:撰写 – 原稿编写、可视化处理、验证、软件开发、方法论设计、研究实施、形式化分析、数据整理、概念构建。Kim Hyung-soo:撰写 – 审稿与编辑、验证、研究实施。Jung Hyung-Jo:撰写 – 审稿与编辑、项目监督、资金筹措。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    本项工作得到了韩国基础设施技术促进机构(KAIA)的支持,该机构由韩国土地、基础设施和交通部资助(项目编号:RS-2020-KA156208)。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号