基于CNN-Transformer混合架构的无人机航拍图像精准目标检测方法HCTD研究

【字体: 时间:2025年06月06日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  针对无人机影像中目标尺度多变、小物体密集分布及复杂背景干扰等挑战,研究团队提出混合CNN-Transformer检测器HCTD,通过特征过滤模块(FFM)、卷积加性自注意力(CASFI)和全局上下文流特征金字塔(GC2 FPN)实现多尺度语义对齐,在VisDrone2019数据集上达到43.7% AP50 ,为无人机智能感知提供高效解决方案。

  

随着无人机成本降低和飞行控制技术进步,无人机在地理勘探、交通监控等领域的应用日益广泛。然而,航拍图像中目标尺度剧烈变化、小物体占比不足1%、背景复杂等特性,使得传统检测方法面临特征丢失、语义不一致等挑战。四川文理学院等机构的研究人员提出HCTD混合检测器,相关成果发表于《Computer Vision and Image Understanding》。

研究采用三大核心技术:1) 特征过滤模块(FFM)通过双全局池化抑制噪声;2) 卷积加性自注意力(CASFI)以轻量级空间-通道交互替代点积注意力;3) 全局上下文流特征金字塔(GC2
FPN)实现跨尺度语义传播。实验使用VisDrone2019数据集,包含14个中国城市的多场景航拍图像。

【Methodology】
通过ResNet18/50骨干网络提取S2
-S5
阶段特征,经FFM模块过滤后获得P2
-P5
级特征。CASFI模块采用加性融合策略,计算成本较传统注意力降低35%。GC2
FPN通过自上而下的语义流增强小物体特征,使APS
提升14.7%。

【Dataset】
在VisDrone2019的10类目标检测任务中,HCTD-R50实现43.7% AP50
和24.6% AP75
,较基线模型提升显著。TIDE工具分析显示,分类错误率降低21%,验证了模块设计的有效性。

【Discussion】
研究揭示了当前方法对极端尺度变化和旋转目标的局限性,未来需结合动态感受野和旋转不变性特征。GC2
FPN的跨层交互机制为多尺度检测提供了新思路。

【Conclusion】
HCTD通过混合架构平衡CNN的局部感知与Transformer的全局建模能力,特征过滤和上下文流设计显著提升小物体检测鲁棒性。该研究为无人机在智慧城市等场景的实时检测提供了可部署方案,代码已开源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号