Z形裁剪技术以及改进版的“You Only Look Once”(YOLo)第11版本,用于检测被遮挡的小目标
《Engineering Applications of Artificial Intelligence》:Z-shaped cropping and enhanced You Only Look Once Version 11 for object detection of occluded small targets
【字体:
大
中
小
】
时间:2026年01月15日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
小目标检测精度受目标尺寸变化和遮挡影响显著,本研究构建了包含七类小目标的虚拟场景数据集,通过无人机仿真平台采集1521张高/低分辨率配对图像,提出Z-shaped裁剪增强方法模拟遮挡场景,优化YOLOv11架构集成 HGBlock和C2f模块,在20%-40%遮挡下检测置信度提升0.13-0.23,mAP@0.50和mAP@0.50:0.95分别提升5.31%和5.42%。
刘润子|单东日|梁世远
山东科技大学,中国青岛
摘要
本研究探讨了在基于人工智能的计算机视觉中,由于目标尺寸变化和遮挡导致的小目标检测精度下降的问题。我们使用Unreal Engine 4构建了包含七种目标类型的三维模型场景,并通过基于AirSim的无人机模拟器在60°俯仰角和45°视场角下收集了1521张图像,这些图像包含了高分辨率和低分辨率的对齐样本。所提出的Z形裁剪算法通过剪切和替换策略生成了遮挡样本,在20%、30%和40%的遮挡情况下,检测置信度分别提高了0.13、0.15和0.23。注意力模块和特征增强模块的最佳性能区间得到了理论证明和实验验证。基于此,我们开发了一个优化版的You Only Look Once Version 11模型。该模型通过使用沙漏形块和C2f模块的区域注意力机制,在交并比(mAP@0.50)上实现了5.31%的提升,在0.50–0.95范围内实现了5.42%的提升。结果表明,这种基于人工智能的解决方案能够有效检测复杂场景中的小型、部分遮挡的目标。
引言
小目标的检测仍然是计算机视觉领域最具挑战性的问题之一。在非常低的分辨率下,目标特征被压缩到30个像素以内,极大地降低了可辨识性。不出所料,像YOLO和DETR这样的先进检测算法在检测极小目标时置信度降低甚至失败(李等人,2023;李等人,2024;阮和胡恩-泰,2025;王等人,2021)。在主流应用中,配备了摄像头的无人机(UAV)被广泛用于目标检测(曲等人,2025;易等人,2024;翟等人,2023)。然而,出于安全考虑,无人机通常需要保持较高飞行高度,这导致捕获的图像中包含大量小目标(孙等人,2025;王等人,2023)。因此,提高小目标的检测精度已成为一个关键的研究焦点。
检测部分遮挡的目标是另一个显著挑战。当目标被部分遮挡时,检测模型通常会提取不完整的信息,从而导致置信度急剧下降(崔等人,2022;李等人,2021;聂等人,2024)。严重的遮挡甚至可能导致模型完全误解特征,从而产生误检(马等人,2024;柳和钟,2021)。在工业或高密度环境中,遮挡目标非常普遍(柯等人,2023;李和李,2022;叶等人,2023),因此提高对遮挡的鲁棒性既具有实际意义,也具有技术难度。
为了提高小目标的检测精度,一些学者通过修改现有的视觉检测算法来使模型更适合小目标检测。H. Z.等人提出了基于YOLOv8的PARE-YOLO(张等人,2025),该模型通过重构的颈部网络增强了跨多尺度特征提取和融合。在VisDrone2019数据集上,PARE-YOLO的mAP@0.5相比基线YOLOv8模型提高了5.9%。HW团队使用相同的架构开发了LSOD-YOLO(王等人,2025),他们的轻量级跨层输出重构模块通过跨层连接加强了浅层和深层特征的整合,使得在同一数据集上的小目标检测mAP提高了2.5%。同时,H.Y.等人引入了ISTD-DETR,这是一个结合了超分辨率预处理和基于DETR架构的增强实时检测变换器(RT-DETR)的新框架(杨等人,2025)。此外,变换器也被应用于许多视觉相关任务(查特吉等人,2025;韩等人,2023;贾米尔等人,2023;汗等人,2022;李B等人,2023;张等人,2021)。许多其他学者也改进了YOLO模型(包括YOLOv4–YOLOv10)作为基线来提升算法性能(戴等人,2022;董等人,2023;郝和李,2025;娄等人,2023;马L等人,2023;史等人,2024;魏等人,2024;岳等人,2024;张F等人,2025;张恒等人,2025;张Q等人,2025)。一些学者还脱离了YOLO框架,开发了自己的小目标识别注意力机制(或使用DETR)(卢等人,2025;平等人,2025;薛等人,2025)。然而,这些研究仅实施了结构上的改进,仍然使用公共数据集进行评估。当小目标样本不足时,架构修改无法从根本上解决特征学习问题。
除了视觉算法解决方案外,一些研究人员还结合了图像处理方法来解决小目标识别问题(张等人,2022)提出了密集裁剪方法和局部注意力检测网络DCLANet,旨在使小目标在原始图像中完全聚焦并相对放大(张等人,2022);开发了具有多尺度特征融合的全局注意力网络GANet,以及一种目标复制数据增强策略,在训练过程中重复复制和粘贴小目标以增加正样本数量。TY(田等人,2023)等人提出了MD-YOLO用于检测三种类型的小目标,并提出了一种随机拼接方法进行图像增强。然而,这些图像处理方法可能会丢失上下文信息并加剧样本不平衡问题,而仅仅增加了目标数量,没有模拟其他场景(如遮挡)。
在最近的相关研究中,研究人员继续改进模型架构。程(陈等人,2025)等人通过多分支结构和可变卷积核增强了多尺度特征表示,在COCO数据集上实现了更高的精度,无需预训练(冯等人,2025)。利用超图计算(HGC-SCS)实现了高阶跨层交互,与YOLOv8n相比,AP(验证集)提高了12%(韩等人,2025)。针对低光照环境进行了目标检测,引入了SAConv多尺度颈部结构和MPDIoU损失,mAP@0.5提高了4.3%,同时计算成本降低了4 GFLOPs。然而,这些方法可能仍存在结构复杂性增加或无法充分模拟多样化现实世界场景的局限性。
总之,即使是最先进的模型,在目标过小或被遮挡时也会出现性能下降。当目标既足够小又部分遮挡时,挑战变得更加严峻。本研究的目的是通过算法和架构改进来提高对遮挡小目标的识别精度。特别是,我们开发了一种新的图像裁剪方法,成功模拟了遮挡目标用于训练,并引入了新的数据集和模型增强。本研究的贡献可以总结如下:
- ●
创建了一个新的小目标数据集:使用Unreal Engine 4(UE4)构建了一个包含七种类型小对象的虚拟场景。通过AirSim无人机模拟插件,我们模拟了无人机飞行并使用虚拟相机进行图像采集,最终建立了一个包含1521张图像的专用数据集。
- ●
提出了Z形裁剪增强方法:这种创新方法沿多条Z形切线将图像分割成三角形和平行四边形部分。通过随机交换平行四边形块,成功模拟了被切割线部分遮挡的目标。
- ●
开发了基于YOLOv11的架构:注意力模块和特征增强模块的最佳性能区间得到了理论证明和实验验证。我们通过将HGBlock模块集成到颈部网络中,并用A2C2f模块替换一个C3K2模块,增强了模型的特征表示能力。
模型改进
最近,对象检测模型在整体性能上取得了显著提升;然而,在准确检测不同尺度对象(尤其是小目标)方面仍存在挑战。为了解决小目标检测精度低的问题,研究主要集中在对现有模型的结构改进上。代表性的方法总结在表1中。如表所示,许多YOLO系列变体已经针对小目标检测进行了优化。
数据集
UE4是由Epic Games开发的跨平台引擎,支持高级渲染和物理模拟。其Chaos Physics系统和GPU加速的粒子框架使AirSim能够实现逼真的无人机飞行模拟和传感器数据生成。
本研究使用了微软的开源AirSim平台,结合NVIDIA PhysX 4.1引擎,进行了高保真度的六自由度无人机模拟,配备了多模态传感器(例如,多光谱相机和LiDAR)
Z形裁剪
所提出的Z形裁剪增强方法旨在通过沿图像对角线运动的几何约束掩蔽轨迹来模拟真实的遮挡模式。这种设计确保了局部连续性(以保持结构一致性)和全局随机性(以引入变化性),从而弥合了过于简单的随机掩蔽和刚性周期性方法之间的差距。与传统的随机掩蔽技术(如Cutout、Mixup和GridMask)不同,这些方法要么
模型训练
前面的章节描述了数据集构建和模型修改。本节讨论了模型训练过程。主要使用的计算硬件是NVIDIA RTX 4070 GPU。软件环境包括带有CUDA 11.8加速的PyTorch 2.0.0。训练是通过Visual Studio Code中的Ultralytics框架的model.train()命令执行的,通过指定数据集参数和架构参数(dataset-config.yaml和
结论
本研究聚焦于Z形裁剪图像增强方法,并开发了一种用于检测遮挡小目标的检测方法,显著提高了检测精度。主要结论如下:
1)创建了一个新的小目标数据集:首先使用UE4模拟环境构建了一个包含随机分布的七种类型小目标的专用数据集。使用AirSim的无人机模拟插件,虚拟无人机飞行捕获了1521张图像
CRediT作者贡献声明
刘润子:写作 – 审稿与编辑,撰写 – 原始草稿,可视化,调查,数据整理。单东日:监督,资源获取,资金筹集。梁世远:可视化,资源,项目管理,方法论,形式分析。
资助
本研究得到了山东省重点研发计划(重大科技创新项目)(编号2023CXGC010701)和市校融合发展战略工程项目(编号JNSX2024066)的支持。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号