在洪水期间,使用YOLO模型进行无人机辅助的人体位置识别的比较评估

《Applied System Innovation》:Comparative Evaluation of YOLO Models for Human Position Recognition with UAVs During a Flood

【字体: 时间:2025年12月26日 来源:Applied System Innovation 3.7

编辑推荐:

  可靠识别无人机影像中溺水者的挑战在于强反光、波浪形变、部分浸没和水体动态干扰。本研究提出融合YOLO12目标检测、光学流运动分析、卡尔曼滤波跟踪和BlazePose骨骼估计的混合方法,通过整合SARD、SeaDronesSee、C2A和SynBASe四类数据集(涵盖洪水、海洋、合成场景及动态视频序列),显著提升复杂水体环境下的检测精度(mAP@0.5=0.95)与实时性(21 FPS)。基于Raspberry Pi 5的嵌入式部署验证了方法在真实救援场景中的可行性,同时通过姿态分析(如垂直姿势识别自救行为)和运动轨迹预测( Kalman滤波补偿波浪遮挡),有效区分溺水者与漂浮物,减少误报率。

  
本文针对无人机在复杂水域环境下进行人员检测与定位的难题,提出了一种融合深度学习检测、运动分析和骨骼估计的混合方法。研究通过整合多源数据集,优化模型架构,并引入时空特征分析,显著提升了在洪水、海洋等极端环境下的检测准确性和系统鲁棒性。

### 一、研究背景与挑战
现代灾害救援中,水域人员搜索面临多重技术挑战:强反光导致图像模糊、波浪造成的动态畸变、部分身体浸没引起的检测困难,以及目标尺寸过小等问题。传统检测方法(如YOLO系列)在单一场景下表现良好,但难以适应水域的复杂多变性。现有研究多聚焦于单一技术环节,如光学流场分析或骨骼估计,缺乏系统性整合。本文通过构建融合检测、运动跟踪和姿态识别的混合框架,实现了对人员状态的多维度分析。

### 二、数据集构建与预处理
研究整合了四个互补数据集:
1. **SARD**:覆盖陆地救援场景的静态图像,包含6种人体姿态,但缺乏水域数据。
2. **SeaDronesSee**:包含14,227张海洋场景图像,涵盖不同波浪强度和光照条件,但侧重开阔水域。
3. **C2A**:合成灾难场景数据集,包含10,215张混合真实与合成场景的图像,但存在光照不一致问题。
4. **SynBASe**:基于虚幻引擎4生成的合成数据集,模拟极端天气与人体姿态,但缺乏真实场景的物理参数。

预处理阶段采用动态优化策略:
- **运动筛选**:应用Farneb?ck光学流算法(金字塔层级0.5,窗口15像素),过滤静态帧,仅保留像素级运动特征超过阈值的帧
- **噪声抑制**:结合高斯滤波(σ=1.1)消除水面波动噪声,阈值分割处理强反光区域
- **数据增强**:在保持物理真实性的前提下,引入光照变化、角度偏移等20+种增强操作

### 三、混合方法架构
#### 1. 检测模块(YOLO12)
采用改进的YOLOv12架构,其核心优化包括:
- **特征金字塔网络**:融合多尺度特征(浅层细节+深层语义)
- **注意力机制**:动态加权关键区域(如头部、四肢关节)
- **轻量化设计**:参数量减少40%,推理速度提升30%

实验显示,YOLO12在测试集上达到0.95的mAP@0.5指标,较YOLOv8提升12.7%的检测精度,同时保持21FPS的实时处理能力。

#### 2. 运动分析模块
- **双流光学流计算**:同时提取空间(像素级)和时间(帧间)特征
- **动态阈值过滤**:根据环境噪声水平自适应调整运动强度阈值
- **卡尔曼滤波优化**:结合kalman Filter预测人体运动轨迹,在水面波动环境下减少30%的误检

#### 3. 姿态估计模块
- **多模态骨骼检测**:融合COCO格式关节点与OpenPose关键点
- **三维空间校准**:根据无人机高度(5-260米)和视角自动校正骨骼坐标
- **异常行为识别**:建立包含12类危险姿态的评估模型(如水平躺姿、无序肢体运动)

### 四、实验验证与性能分析
#### 1. 消融实验结果
| 模块组合 | mAP@0.5 | Recall | F1-Score |
|----------|---------|--------|----------|
| YOLO12 | 0.95 | 0.91 | 0.925 |
| +光学流 | 0.97 | 0.93 | 0.937 |
| +卡尔曼 | 0.98 | 0.94 | 0.942 |
| +骨骼检测| 0.99 | 0.95 | 0.947 |

显示各模块叠加依次提升检测精度(mAP提升4.2%)、召回率(3.7%)和F1分数(2.2%)。

#### 2. 硬件适配测试
在Raspberry Pi 5平台(4核A76@2.4GHz,GPU频580MHz)上实现:
- **实时性能**:21FPS(1080P分辨率)
- **内存占用**:<1GB(含模型加载)
- **功耗管理**:工作温度控制在45℃以内

#### 3. 真实场景测试
在急流河(流速3m/s)、暴雨(降雨量15mm/h)等极端条件下:
- **误检率**:0.04次/百帧(较传统方法降低67%)
- **漏检率**:0.09次/百帧(较YOLOv8降低42%)
- **姿态识别准确率**:89.7%(达到医疗级评估标准)

### 五、创新点与局限性
#### 核心创新:
1. **多模态融合机制**:首次将检测精度(YOLO12)、运动连续性(卡尔曼滤波)和姿态语义(BlazePose)进行端到端整合
2. **动态环境适应**:开发环境感知模块,根据波浪强度自动调整检测敏感度
3. **轻量化部署**:模型压缩技术使YOLO12在嵌入式平台实现实时推理

#### 现存问题:
1. **极端天气影响**:当降雨量>25mm/h时,检测准确率下降至82%
2. **多目标干扰**:密集人群场景(>3人/帧)误报率上升至12%
3. **跨场景泛化**:对城市内涝场景的检测性能比海洋场景低18%

### 六、应用价值与未来方向
#### 实际应用:
- **优先级排序算法**:根据骨骼姿态(如挣扎指数)自动生成救援优先级
- **环境风险评估**:通过水体扰动程度预测救援难度
- **多机协同系统**:支持3架无人机编队,实现500米半径覆盖

#### 发展方向:
1. **多传感器融合**:集成红外/可见光/激光雷达数据
2. **强化学习调度**:动态优化无人机飞行路径
3. **边缘计算优化**:开发专用加速芯片(如NPU)

该研究为水域救援提供了首个完整的端到端解决方案,在欧盟海事安全署(EMSA)的实测评估中,相较传统方法将黄金救援时间缩短37%,误报率降低至4.2%。相关技术已申请3项国际专利,并在意大利那不勒斯港、中国长江三峡库区等6个真实场景完成部署测试。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号