多尺度注意力协调网络在遥感图像显著目标检测中的应用
《Optics & Laser Technology》:Multi-Scale attention Coordination Network for remote sensing image salient object detection
【字体:
大
中
小
】
时间:2025年08月21日
来源:Optics & Laser Technology 4.6
编辑推荐:
遥感图像显著目标检测中,复杂背景和低分辨率导致特征表示退化及边界模糊。MACNet提出多级特征提取框架和全局-局部特征聚合模块,结合结构感知融合网络与多尺度傅里叶注意力机制,通过三重视觉-空间-像素注意力实现跨尺度特征交互,有效提升细粒度目标定位精度。实验在ORSSD和EORSSD数据集上验证,S-measure达0.9460/0.9355,MAE为0.0090/0.0068,优于现有方法。
在遥感图像(Remote Sensing Image, RSI)中进行显著目标检测(Salient Object Detection, SOD)是一项具有重要现实意义的研究课题。显著目标检测的目标是自动识别和定位图像中最能吸引人类视觉注意力的区域,从而为后续的地理空间分析和决策提供关键信息。然而,RSI相较于自然场景图像(Natural Scene Image, NSI)具有独特的挑战性,例如复杂背景、低分辨率、多尺度目标以及环境干扰等。这些问题直接影响了显著目标检测模型的性能,尤其是在提取特征和界定目标边界方面。
当前,大多数显著目标检测方法主要针对自然场景图像进行优化,其设计往往基于人类视觉系统的基本机制,如中心偏置、对比度、色彩差异等。这些方法在自然场景中表现良好,但直接应用于遥感图像时,由于传感器模态、场景结构、空间分辨率以及目标特征的显著差异,往往无法达到理想的检测效果。例如,许多NSI-SOD模型假设目标具有中心对称性或均匀分布的显著区域,而遥感图像中的目标可能呈现出多尺度、非对称、分布不规则等特点,使得传统方法难以有效捕捉目标的显著性。
为了克服这些挑战,近年来的研究逐渐转向针对遥感图像的显著目标检测方法。这些方法通常采用编码器-解码器(Encoder-Decoder)架构,并结合多尺度特征融合策略,以提高模型对目标尺度变化的适应能力。例如,LVNet通过构建双流金字塔模块和嵌套连接机制,显著提升了在多个遥感数据集上的检测性能。ACCoNet则强调相邻特征之间的交互和上下文建模,从而改善目标区域的表征,尽管其计算复杂度较高。DAFNet则试图引导注意力从浅层特征向深层语义特征迁移,以增强目标定位能力,但其特征交互范围有限,解码结构也较为简单,导致语义信息提取不足。
综上所述,尽管在RSI-SOD领域已取得了一定进展,但现有方法仍存在诸多不足,特别是在跨尺度上下文建模、相邻特征融合以及特征多样性增强等方面。这些问题限制了模型对复杂场景的适应能力,导致显著目标的检测精度和边界界定能力下降。因此,有必要提出一种新的方法,以更好地应对这些挑战。
本研究提出的MACNet是一种多尺度注意力协调网络,旨在提升遥感图像中显著目标检测的准确性和鲁棒性。MACNet的核心思想是通过引入全局结构感知融合网络(Global-Structure-Aware Fusion Network, GSAFN)和多尺度频率注意力(Multi-Scale Fourier Attention, MSFA)模块,增强模型对全局语义和局部细节的感知能力。同时,通过设计全局-局部特征聚合(Global-Local Feature Aggregation, GLFA)模块和相邻协调空间-像素注意力(Adjacent Coordinated Spatial-Pixel Attention, ACSPA)模块,MACNet能够在不同尺度下有效融合特征,提升对复杂场景的适应能力。
GSAFN模块结合了多尺度池化与通道注意力机制,通过多尺度池化提取全局语义信息,同时利用通道注意力机制增强对重要特征通道的关注。MSFA模块则通过频率域建模进一步提升模型对目标边界的识别能力,使其能够更准确地捕捉目标的边缘特征。GLFA模块则通过融合局部纹理与全局语义信息,提升模型在不同尺度下的目标检测能力,同时增强其在复杂背景下的鲁棒性。ACSPA模块则引入了三级注意力机制,分别在通道、空间和像素域上建模相邻特征之间的依赖关系,从而更精细地定位显著区域。
在实验方面,本研究在两个广泛使用的RSI-SOD数据集——ORSSD和EORSSD上进行了评估。ORSSD是首个公开的RSI-SOD数据集,包含800张遥感图像和像素级别的真实标注。其中,600张用于训练,200张用于测试。EORSSD则是另一个重要的数据集,其内容和结构与ORSSD类似,但可能包含更多的复杂场景和环境干扰。通过在这些数据集上的测试,MACNet展示了其在显著目标检测任务中的优越性能,其S-measure和MAE得分分别为0.9460和0.0090(在ORSSD数据集上),以及0.9355和0.0068(在EORSSD数据集上),均优于当前最先进的方法。
MACNet的提出不仅提升了遥感图像中显著目标检测的性能,还为未来相关研究提供了新的思路和方法。在实际应用中,显著目标检测能够为地理空间分析、灾害监测、城市规划等领域提供重要的支持。例如,在城市规划中,能够准确识别出显著的建筑物、道路和基础设施,有助于更高效地进行城市资源管理。在灾害监测中,能够快速定位受灾区域的关键目标,如建筑物、道路和桥梁,从而为救援行动提供决策依据。
此外,MACNet的结构设计也具有一定的灵活性和可扩展性,使其能够适应不同类型的遥感图像。例如,对于高分辨率遥感图像,MACNet能够更精确地捕捉目标的细节特征,而对于低分辨率图像,则能够通过多尺度特征融合策略增强目标的识别能力。这种适应性使得MACNet在不同应用场景中具有更广泛的应用前景。
在方法实现上,MACNet的编码器部分采用了经典的VGG-16作为主干网络,但对其结构进行了优化。具体而言,移除了VGG-16的最后一层池化层和三个全连接层,以保留更高的空间分辨率,适应密集预测任务的需求。编码器由五个阶段的卷积块组成,每个阶段生成不同尺度的特征图,为后续的多尺度特征融合提供了基础。解码器部分则采用了分支聚合结构,通过有效融合不同尺度的特征,提升目标定位和边界界定的准确性。
为了进一步提升模型的性能,MACNet引入了多个创新模块。其中,GSAFN模块通过多尺度池化和通道注意力机制,增强了模型对全局语义信息的感知能力。MSFA模块则通过频率域建模,提升了对目标边界的识别精度。GLFA模块通过融合局部纹理与全局语义信息,提高了模型在不同尺度下的目标检测能力。ACSPA模块则通过三级注意力机制,建模相邻特征之间的依赖关系,从而更精细地定位显著区域。
在实际应用中,MACNet的性能优势得到了充分验证。通过在ORSSD和EORSSD数据集上的实验,MACNet在显著目标检测任务中表现出色,其S-measure和MAE得分均优于现有方法。这表明,MACNet在处理复杂背景、低分辨率遥感图像以及多尺度目标时具有较强的鲁棒性。此外,MACNet在不同环境干扰下的表现也较为稳定,能够有效识别出目标的显著性,即使在存在阴影、云层和雾霾等干扰因素的情况下。
综上所述,MACNet作为一种新的多尺度注意力协调网络,在遥感图像显著目标检测任务中展现出良好的性能和应用前景。其通过引入多个创新模块,有效提升了模型对全局语义和局部细节的感知能力,增强了对复杂场景的适应能力。未来的研究可以进一步探索MACNet在不同遥感任务中的应用,如变化检测、目标跟踪等,以拓展其在地理空间分析中的价值。同时,也可以对MACNet的结构进行优化,以提高其计算效率和适用性,使其能够在实际应用中发挥更大的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号