高效视觉Transformer启发的轻量化网络EViT-Net:提升多尺度遥感图像特征提取的新范式

【字体: 时间:2025年07月23日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决遥感图像中多尺度目标检测精度低、漏检率高和部署成本大的难题,研究人员创新性地提出基于Vision Transformer(ViT)的轻量化网络EViT-Net。该研究通过CA-RepViT主干网络捕获全局特征,结合GSPPF、C3G2和LSPD模块优化多尺度特征融合,并构建P2-BiFPN增强跨层信息交互。实验显示模型参数量降低56.3%,在VisDrone2019和AI-TOD数据集上mAP提升1.8%-3.9%,FPS提高49.3%,为遥感图像实时分析提供高效解决方案。

  

随着气候变化和资源短缺等全球性问题加剧,遥感技术作为地球观测的重要手段,在环境监测、城市规划和军事侦察等领域发挥着关键作用。然而,面对海量遥感数据,如何快速准确地识别多尺度目标仍是重大挑战。传统卷积神经网络(CNN)虽能有效提取局部特征,但其有限的感受野难以捕捉长程依赖关系;而新兴的Vision Transformer(ViT)虽具有全局建模优势,却存在计算成本高、局部细节捕捉不足等问题。这种技术瓶颈导致复杂场景下的目标检测常出现漏检率高、适应性差等问题,严重制约了遥感图像的实战化应用。

针对这一技术困局,研究人员在《Expert Systems with Applications》发表的研究中提出突破性解决方案。通过整合CNN的局部特征提取优势与ViT的全局建模能力,创新设计出轻量化网络EViT-Net。关键技术包括:采用CA-RepViT作为主干网络实现参数高效化;开发GSPPF模块进行多尺度特征压缩;设计C3G2结构增强浅层特征复用;构建LSPD组件优化空间信息编码;通过P2-BiFPN架构强化跨层特征交互;最终采用EDetect检测头提升分类定位精度。实验选用VisDrone2019、AI-TOD和SIMD三个典型数据集验证性能。

整体架构
EViT-Net采用分层设计理念,其创新性体现在三方面:通过CA-RepViT的重新参数化策略,在保持ViT全局注意力机制的同时,将计算量降低12.5%;GSPPF模块采用金字塔池化与跨阶段连接,使小目标检测召回率提升5.4%;P2-BiFPN通过双向跨尺度连接,实现深层语义特征与浅层定位特征的有机融合。

数据集验证
在包含密集小目标的VisDrone2019数据集上,EViT-Net的mAP达到42.1%,较YOLOv11提升1.8个百分点;在目标尺度差异显著的AI-TOD数据集上,其检测速度达到63FPS,较基线模型提升49.3%。特别在10-50像素的极小目标检测场景,召回率改善幅度达5.4%。

结论与意义
该研究开创性地实现了遥感目标检测"精度-效率"的协同优化:通过ViT与CNN的异构融合,突破传统方法对多尺度目标的适应性瓶颈;轻量化设计使模型参数减少56.3%,更适合边缘设备部署;提出的GSPPF和LSPD模块为多尺度特征处理提供新范式。这些突破不仅为智慧城市、灾害预警等应用提供技术支撑,更为计算机视觉领域的架构创新提供重要参考。值得注意的是,在SIMD数据集上的跨域测试验证了模型的强泛化能力,这对实际应用中光照变化、拍摄角度差异等复杂场景具有重要实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号