基于语义推理网络的遥感图像小弱目标检测方法SRNet
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:SRNet: A Semantic Reasoning Network for Small Weak Object Detection in Remote Sensing Images
【字体:
大
中
小
】
时间:2025年12月19日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
本文针对遥感图像中小弱目标检测(SWOD)语义特征缺失的关键问题,提出了一种新颖的语义推理网络(SRNet)。该网络通过多头图推理学习(MGRL)提取关键语义信息,结合前景-背景二值掩码(FBM)技术增强前景关联,并采用特征对齐学习(FAL)和跨层语义交互(CSI)模块解决特征错位与跨尺度融合难题。在DIOR、AI-TOD等五个遥感数据集上的实验表明,SRNet显著提升了小弱目标的检测性能,为复杂场景下的遥感图像解译提供了有效解决方案。
在当今对地观测技术飞速发展的时代,高分辨率遥感图像已成为环境监测、灾害预警和国防安全等领域不可或缺的数据来源。然而,受限于传感器分辨率、成像高度、系统噪声以及环境退化等多种复杂因素,遥感图像中普遍存在大量的小弱目标(Small Weak Objects)。这些目标,如海面上的小船、机场中的小型飞机或城市里行驶的车辆,通常只占据极少的像素,信噪比低,结构特征模糊不清。与普通目标相比,它们微弱且孤立的信号极易被复杂多变的背景噪声所淹没,这给自动检测系统带来了巨大的挑战。传统的检测方法往往难以从这些目标中准确提取出用于可靠识别的关键特征。
尽管提升卫星成像质量需要巨大的研发投入,但通过先进算法充分挖掘数据的内在价值无疑是一条更具成本效益的路径。深度学习的兴起为物体检测带来了多样化、智能化和实时化的新纪元。然而,由于小弱目标自身的局限性,其检测性能仍不尽如人意。关键语义特征的缺失显著降低了小弱目标的判别能力。语义特征代表了图像中物体的类别、属性及关系等高层次信息,是进行稳健目标识别和精确分类的基础。在目标检测任务中,特征金字塔网络(FPN)是进行语义传播的标准工具,它通过自上而下的路径融合多分辨率特征,将高层语义信息传递到低层。但是,对于小弱目标而言,FPN存在明显短板:连续的卷积和池化操作会逐渐降解小目标的特征,使得语义信息难以在高维特征中保留,导致语义传递失效;其次,FPN通过元素求和的方式聚合多尺度特征,这种盲目融合未考虑特征间的关系和重要性,弱目标的关键表达容易被无关噪声抑制;此外,多尺度特征间由于尺度不变性的差异会产生错位问题,不准确的融合可能带来负面影响。
近年来,图卷积网络(GCN)被开发用于处理具有拓扑结构的非欧几里得数据。通过GCN,节点数据可以在图中通过聚合和传播得到丰富。受此启发,李政、冯浩、徐东东、赵天琪、王博笑和王永成等研究人员在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了题为“SRNet: A Semantic Reasoning Network for Small Weak Object Detection in Remote Sensing Images”的论文,提出了一种语义推理网络(SRNet),旨在有效缓解FPN在小弱目标检测中关键语义信息不足的问题。
为了攻克小弱目标检测的难题,SRNet设计了一套创新的技术流程。首先,研究人员提出了多头图推理学习(MGRL)模型,将初始特征表示投影到图空间,并利用一个两层的多头图网络来提取基本的语义信息。其次,引入了前景-背景二值掩码(FBM)技术,对图像的前景区域进行粗略分割,并将生成的掩码作为先验提示融入邻接矩阵,从而在MGRL中强调对目标的推理。接着,提出了基于交叉学习的特征对齐学习模块(FAL),以解决空间投影引起的特征错位问题。最后,采用了跨层语义交互模块(CSI)来促进不同尺度特征间的跨层通信和聚合。这些核心方法协同工作,共同提升了网络对小弱目标的特征提取和识别能力。
多头图推理学习(MGRL) 模块是SRNet的核心。它将特征图中的每个位置视为一个图节点,节点间的关系通过余弦相似度度量。MGRL采用多头部、双层的图卷积网络并行处理图数据,每个头部可能专注于聚合不同模式的节点信息。通过图上的信息传播和聚合,使得包含目标的区域能够融合与其语义一致的上下文信息,从而丰富小弱目标的特征表示。例如,“小而亮的物体与周围的水体纹理”共同构成了船的语义组合,而“长而细的跑道状结构”是飞机的语义特征。这些语义共现关系通过MGRL中的图推理学习被显式编码,并用于目标判别。
前景-背景二值掩码(FBM) 机制旨在减少对大量无关背景的推理计算。该机制首先利用主成分分析(PCA)将原始RGB图像压缩到一维以增强局部对比度,然后采用OTSU算法自适应地确定分割阈值,生成前景-背景二值掩码。该掩码被转换为权重矩阵并与邻接矩阵结合,构建一个突出前景的邻接矩阵,从而引导网络在图像推理过程中聚焦于目标区域及其潜在关系。
特征对齐学习(FAL) 模块用于解决图数据重投影回特征空间时可能出现的特征错位问题。该模块采用可变形卷积,通过交叉学习策略,让来自卷积神经网络(CNN)和图卷积网络(GCN)的特征相互学习对方空间中的数据分布,预测位置偏移和调制因子,从而实现特征的空间自适应对齐,并以可学习的方式融合对齐后的特征,确保信息的有效整合。
跨层语义交互(CSI) 模块借鉴了自适应空间特征融合(ASFF)的思想,旨在建立跨尺度信息之间的联系。该模块将不同分辨率的特征统一到相同尺寸,并通过计算重要性权重进行自适应加权聚合。这使得每一层的特征都能同时考虑所有尺度信息的影响,实现更灵活、平衡的跨层特征交互,有助于小目标从其他层级的特征中挖掘和补充细节信息。
研究团队在五个大型遥感数据集上进行了广泛的实验,以验证SRNet的有效性。
在DIOR数据集上的结果表明,SRNet在RetinaNet、ATSS和GFL三种基线检测器上均能稳定提升性能。特别是在ATSS框架下,SRNet取得了74.9%的最高mAP(平均精度),相较于基线提升显著。消融实验证实,每个组件(MGRL, FBM, FAL, CSI)都对性能提升有积极贡献。其中,使用余弦相似度构建邻接矩阵优于欧氏距离,且MGRL中设置4个头时效果最佳。与其他特征金字塔结构(如PAFPN、NAS-FPN、AFPN等)相比,SRNet在挖掘关键语义方面的优势明显。
在AI-TOD数据集上的结果显示,SRNet在GFL框架下取得了最佳整体性能,AP达到23.9%。AI-TOD数据集包含大量微小目标,SRNet通过建模节点间关系捕获更丰富的语义上下文,这对于依赖周围信息进行精确检测的小目标尤为有益。可视化结果对比表明,SRNet在港口边界相连的船只、鸟瞰视图中的杂波和人员等复杂场景下,能更准确地识别目标,减少误检和漏检。
在NWPU VHR-10数据集上的结果进一步证明了SRNet的优越性。基于RetinaNet的SRNet获得了95.41%的mAP,优于其他对比方法。这表明SRNet提供的增强语义表示能够有效提升多种遥感目标的检测精度。
在DOTA-v1.0和STAR数据集上的结果同样令人鼓舞。在DOTA-v1.0上,SRNet取得了74.4%的mAP,并在5个小弱目标类别中的3个上获得了最佳结果。在STAR数据集上,SRNet以37.4%的mAP领先于其他7种方法。这些结果一致表明,SRNet在处理不同来源、不同特性的遥感图像小弱目标检测任务时具有强大的泛化能力。
特征可视化结果直观地展示了语义推理学习的效果。与基线相比,SRNet生成的特征热图对小弱目标(如被遮挡的车辆、复杂城市环境中的小桥、受大气干扰的风车)具有更高的激活响应,表明其语义表示能力得到了增强。混淆矩阵分析显示,SRNet显著降低了多数目标类别的漏检率,特别是对于机场、桥梁、高速公路服务区和火车站等语义模糊的目标,改善尤为明显。
综上所述,这项研究成功地提出并验证了SRNet这一针对遥感图像小弱目标检测的创新解决方案。通过引入图推理网络来探索和聚合关键语义信息,SRNet有效地克服了传统特征金字塔网络在语义传递和特征融合方面的局限性。研究结果表明,该方法在多个公开数据集上均取得了领先的检测性能,显著提升了对小弱目标的识别能力。尽管SRNet因引入多个处理模块而增加了计算负担,但其在精度上的显著提升为高精度遥感图像解译应用提供了新的技术路径。未来,研究团队计划进一步探索轻量化技术以降低模型复杂度,推动其在资源受限的边缘设备上的部署,从而在无人机监控、灾害预警等近实时应用场景中发挥更大价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号