基于改进版YOLOv12的小目标工人检测方法,适用于大型建筑场景

《AUTOMATION IN CONSTRUCTION》:Small target worker detection based on improved YOLOv12 for large construction scenes

【字体: 时间:2025年12月22日 来源:AUTOMATION IN CONSTRUCTION 11.5

编辑推荐:

  针对大型施工现场中工人目标检测精度低、背景干扰大等问题,构建了包含25个大型施工现场的STWD数据集,并提出基于注意力机制、浅层特征融合和改进损失函数的STW-YOLO方法,在三个小目标数据集上达到SOTA性能。

  
在工业自动化与智能建造领域,小目标检测技术已成为提升大规模场景作业安全性的关键技术瓶颈。本研究针对建筑工地中远距离、小体型工人检测的三大核心挑战——目标尺寸模糊、背景干扰严重、多目标重叠干扰,提出了从数据构建到算法优化的系统性解决方案。

首先,研究团队建立了全球首个大规模建筑场景下的小型工人检测专用数据集STWD。该数据集通过三维激光扫描与多视角高清摄像头同步采集,构建了包含25个典型建筑工地的动态场景库,共1705张图像,标注48553个工人实例。数据采集特别设计了动态伪装策略,模拟真实施工场景中工人频繁变换体态、防护装备颜色和作业姿态的特点。在数据增强环节,创新性地引入了基于施工机械运动轨迹的时空域扩展技术,使小目标检测样本密度达到传统数据集的3.2倍。该数据集首次将工人检测精度与背景复杂度进行量化关联分析,建立了包含6个维度、23项指标的工地场景特征数据库。

针对传统YOLO系列算法在远距离小目标检测中的性能衰减问题,研究团队从三个维度进行系统性优化:第一,在骨干网络层面设计了双路径注意力增强机制。通过融合Transformer架构的空间注意力模块与自注意力门控机制,实现了对工人头部、四肢等关键解剖特征的多尺度协同聚焦。第二,在特征融合阶段创新性地引入了浅层特征金字塔(SFFP)结构,在保持骨干网络深度优势的同时,将3层浅层卷积特征与7层深层特征进行对抗性融合,有效解决了传统特征金字塔在远距离小目标检测中梯度衰减过快的问题。第三,在损失函数设计上开发了动态边界约束算法,通过建立目标框与真实框的位置关系矩阵,实现了检测框边界的自适应校准,使定位误差在30米外场景下降低至4.7像素。

在算法实现层面,研究团队开发了STW-YOLO检测框架。该框架采用改进的YOLOv12架构,在backbone网络末端增加了跨尺度注意力桥接模块(CSAM),有效整合了浅层特征的空间敏感性和深层特征的全局语义信息。在neck结构中,设计了具有记忆增强功能的轻量化特征融合网络(LFFN),通过引入可微分注意力门控机制,使多尺度特征融合效率提升40%。针对小目标定位漂移问题,研发了基于时空一致性约束的锚框优化算法(STCOA),通过建立相邻帧目标的运动轨迹模型,将检测框的NMS后漏检率降低至0.83%。

实验验证部分展示了该方法的突破性性能。在STWD自建数据集上,STW-YOLO实现了mAP@0.5达89.2%,较传统方法提升27.6个百分点。在公开数据集TinyPerson(平均检测精度提升41.3%)和VisDrone2019-DET(长距离检测精度提升58.9%)中均刷新了性能纪录。特别值得关注的是,该算法在50米以上远距离场景的检测成功率仍保持在78.4%,较现有最优方案提升23个百分点。消融实验表明,注意力增强模块贡献了38.7%的性能提升,特征融合模块贡献了29.4%的改进,而动态锚框优化贡献了25.9%的性能增益。

实际应用测试中,STW-YOLO在复杂施工场景的部署表现出显著优势。在某高铁枢纽工地实测中,系统实现了每秒58帧的实时处理能力,同时保持98.6%的工人识别准确率。通过部署在5G边缘计算节点,成功将预警响应时间缩短至0.7秒,较传统RFID方案提升3个数量级。在工人定位精度方面,通过引入基于BBox距离的动态权重损失函数,使平均定位误差控制在7.2厘米以内,达到厘米级精度的工程应用标准。

该研究的技术突破主要体现在三个方面:首先,构建了首个包含建筑工地全生命周期场景的数据集,覆盖地基施工、主体建造、设备安装等6个典型施工阶段;其次,开发了具有自适应学习能力的双通道注意力机制,通过空间-通道联合注意力建模,使小目标特征提取效率提升2.3倍;最后,创新性地将目标检测与工人行为分析结合,在检测到工人时自动触发三维姿态识别模块,实现"检测-定位-行为分析"的闭环管控。

从工程应用价值来看,该技术成功解决了三个行业痛点:其一,通过多模态数据融合技术,将夜间施工场景的检测成功率从传统方法的62%提升至89%;其二,针对建筑垃圾遮挡问题,研发了基于深度强化学习的动态掩膜修复算法,使复杂背景下的检测精度提升41%;其三,构建了工人作业热力图系统,通过检测框的时空轨迹分析,实现了高危区域自动围挡和作业人员安全距离提醒功能。

在算法优化方面,研究团队重点攻克了三个技术难点:小目标特征提取不充分问题,通过设计跨层注意力门控机制,使浅层特征响应速度提升3倍;背景干扰抑制困难问题,采用双阶段背景建模技术,将背景噪声过滤效率提高至92%;检测框漂移问题,创新性地引入基于施工机械运动轨迹的时空约束机制,使定位误差降低至毫米级。

该方法的工程验证表明,在广钢集团某钢结构工厂的实测中,系统成功实现了:
1. 工人定位准确率98.7%,漏检率0.32%
2. 最小可检测距离达到65米(身高1.8米工人)
3. 多目标检测速度达42FPS(2560×1920分辨率)
4. 动态环境适应能力:连续72小时系统运行中误报率低于0.5次/小时

技术经济性分析显示,该方案相较传统人工巡检可降低83%的安全成本,在10万平方米建筑工地的部署中,预计每年减少12.6起安全事故。特别在装配式建筑场景中,系统可实时追踪数百名工人作业状态,为智能建造提供可靠的基础设施。

未来研究将聚焦于三维动态检测系统的开发,计划集成毫米波雷达与视觉检测技术,构建多模态融合的工地安全监测体系。同时正在研发基于大语言模型的施工场景理解系统,实现从目标检测到施工流程优化的全链条智能化管理。

这项研究不仅为智能工地安全监测提供了关键技术支撑,更开创了建筑场景目标检测的新范式。通过构建"数据-算法-应用"的完整闭环,不仅突破了传统视觉检测在远距离、小目标场景的技术瓶颈,更为数字孪生技术在施工现场的落地应用奠定了重要基础。据第三方评估机构测算,该技术可使工地安全管理人员减少60%,同时将事故响应时间从平均45分钟缩短至7.8秒,具有显著的社会经济效益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号