基于三概率图增强视觉Transformer的无人机影像目标检测框架(TPM-EViT)研究

【字体: 时间:2025年06月19日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  【编辑推荐】针对无人机影像中目标尺寸多变、遮挡复杂导致的检测精度不足问题,研究者提出三概率图增强视觉Transformer框架(TPM-EViT),通过像素级前景-边界-背景分类与多阶段检测机制,在VisDrone2019和UAVDT数据集上实现AP50 最高达60.1%、mAP0.5 达69.3%的性能突破,为复杂场景下的无人机目标检测提供新范式。

  

无人机技术的快速发展为环境监测、灾害评估等领域带来革命性变革,但无人机影像中目标尺寸差异大、遮挡严重、背景复杂等特性,使得传统目标检测方法难以实现精准识别。尤其在高空拍摄场景下,微小目标(如行人、车辆)的边界模糊问题,以及密集遮挡导致的漏检误检,成为制约技术落地的关键瓶颈。现有基于卷积神经网络(CNN)的方法在全局依赖建模和细粒度特征提取上存在局限,而视觉Transformer(ViT)虽能捕捉长程依赖,却对局部细节敏感度不足。

针对这一挑战,研究人员在《Knowledge-Based Systems》发表的研究中,创新性地提出三概率图增强视觉Transformer框架(TPM-EViT)。该框架通过生成前景、边界、背景的三通道概率图,引导ViT主干网络进行像素级分类,结合多阶段检测机制与特征平衡金字塔,在VisDrone2019和UAVDT数据集上取得显著突破。实验表明,TPM-EViT在VisDrone2019测试集上AP50
达60.1%,对小目标(APs
)和中型目标(APm
)的检测精度分别提升至43.2%和56.3%,召回率(Recall)高达70.3%,较基线模型提升显著。

关键技术方法包括:1) 基于无人机影像构建三概率图实现像素级区域划分;2) 在ViT主干中嵌入多尺度特征平衡模块,融合低层细节与高层语义;3) 采用迭代式边界框优化策略提升定位精度;4) 使用VisDrone2019和UAVDT两大标准数据集验证性能。

研究结果部分:
INTRODUCTION
通过分析无人机影像特性,指出传统方法在复杂背景和小目标检测上的不足,强调边界识别对提升检测性能的关键作用。

Existing works
综述现有无人机目标检测方法,指出CNN-based方法在长程依赖建模的局限性,以及ViT在局部特征提取上的缺陷。

PROPOSED METHODOLOGY
提出三概率图生成机制,将原始图像转换为前景/边界/背景概率热图,通过ViT主干联合学习全局上下文与局部细节。特征平衡金字塔通过自上而下和自下而上路径实现多尺度特征融合。

Implementation details
实验采用13代Intel Core i7处理器和NVIDIA RTX 4090显卡,在PyTorch框架下实现。对比实验显示TPM-EViT在两项基准测试中mAP0.5
分别领先基线模型8.2%和7.5%。

CONCLUSION
证实TPM-EViT通过像素级区域划分有效提升遮挡目标的识别率,特征平衡机制使小目标检测APs
提升达35%。该框架为无人机实时监测系统提供了新的技术路径。

这项研究的创新性在于将概率图先验知识与Transformer架构相结合,通过量化不同区域的贡献度,显著改善了复杂场景下的检测鲁棒性。成果不仅推动无人机视觉算法发展,也为遥感图像分析、智慧城市管理等应用提供了可扩展的解决方案。作者团队在伦理声明中确认研究未涉及人类或动物试验,数据可通过合理申请获取。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号