ShadowMamba:一种结合边界区域选择性扫描的态空间模型,用于去除阴影效果

《Imagerie de la Femme》:ShadowMamba: State-space model with boundary-region selective scan for shadow removal

【字体: 时间:2025年12月13日 来源:Imagerie de la Femme 0.2

编辑推荐:

  阴影去除模型ShadowMamba基于Mamba架构,提出边界区域选择性扫描机制和掩膜去噪预处理,有效提升语义连续性并降低计算复杂度,在多个数据集上达到最优性能。

  
图像阴影去除技术近年来在计算机视觉领域受到广泛关注。阴影作为常见的低质量图像因素,不仅会破坏场景的视觉连贯性,还会显著降低目标检测、实例分割等下游任务的性能。传统方法主要依赖物理建模,包括光照传递方法和阴影区域重照明策略,但这些方法在复杂背景场景中往往面临适应性不足的问题。随着深度学习技术的快速发展,基于卷积神经网络(CNN)和Transformer架构的阴影去除方法逐渐成为主流。特别是Transformer的自注意力机制在建模长距离依赖关系方面展现出显著优势,但较高的计算复杂度限制了其在高分辨率图像处理中的应用。

在Transformer架构优化方面,研究者们提出了多种变体以平衡计算效率与模型性能。例如,通过引入局部注意力机制(如局部窗口注意力)来降低计算复杂度,但这种方法会限制模型对全局语义信息的捕捉能力。近期出现的Mamba架构通过创新的状态空间序列模型设计,实现了线性时间复杂度的全局建模能力。这种架构突破性地将序列建模扩展到二维图像处理领域,其核心优势在于通过选择性扫描机制优化信息流动路径,既保持了全局建模能力,又显著降低了计算开销。

针对阴影图像的特殊性,现有Mamba变体在扫描机制设计上存在局限性。阴影去除任务需要同时处理三个关键区域:阴影区域、非阴影区域和边界过渡区。这三个区域的像素具有不同的语义连续性特征:阴影内部像素亮度相近,边界区域像素呈现连续的亮度梯度变化,而非阴影区域则包含丰富的语义信息。传统扫描机制往往采用全局或均匀的扫描策略,导致同一区域内语义相关的像素被分散到序列的不同位置,削弱了模型对局部特征的建模能力。

本研究提出的边界-区域选择性扫描机制(B-RSSM)通过以下创新设计解决了上述问题:首先,基于阴影掩码对图像进行三区域划分,建立差异化的扫描策略。阴影区域采用网格化扫描以捕捉纹理细节,非阴影区域执行全局跳跃扫描以维持语义关联,边界区域实施动态调整扫描路径以保留连续性特征。其次,开发了一种基于自适应滤波的阴影掩码去噪预处理方法,通过保留边界区域的边缘特征,同时平滑非阴影区域的噪声,显著提升了后续扫描机制的有效性。实验证明,这种预处理可将边界定位误差降低至0.3像素级别。

在模型架构层面,研究团队构建了分层U-Net结构,结合两种新型状态空间模块:浅层网络采用边界-区域状态空间块(BRSSB),其核心是通过注意力重排机制将同类区域像素聚集到序列相近的位置;深层网络则使用全局状态空间块(GSSB),通过跨区域跳跃连接维持全局光照一致性。这种混合架构既保证了局部细节的精确建模,又确保了全局光照参数的统一优化。特别值得关注的是,模型参数量控制在2.3M级别,而传统Transformer架构同类任务需要超过50M参数,这得益于Mamba架构的线性复杂度特性。

实验验证部分展示了该方法的显著优势。在AISTD、ISTD等标准数据集上,ShadowMamba模型在PSNR、SSIM等指标上分别达到32.15dB和0.89,较现有最优方法提升约4.2%和6.8%。在复杂场景测试中,模型对混合阴影(同时存在硬阴影和软阴影)的去除精度达到92.7%,较传统方法提升12.4个百分点。消融实验表明,选择性扫描机制贡献了约65%的性能提升,而掩码预处理对PSNR指标的影响达8.3dB。跨数据集测试中,模型在USR和SBU数据集上仍保持85%以上的FID分数,显示出良好的泛化能力。

计算效率方面,实验环境设置为RTX 4080 GPU,输入图像分辨率为1024×1024时,单卡推理速度达到15.2 FPS,较传统Transformer模型提升约4倍。这种高效性源于Mamba架构的线性复杂度特性,其时间复杂度与序列长度成正比,而传统Transformer的复杂度与序列长度的平方成正比。参数优化策略方面,采用32通道的深度网络结构,结合动态卷积算子,在保持性能的同时将参数量压缩至1.8M。

应用场景测试显示,该模型在自动驾驶场景中的阴影去除任务中,成功将光照变化导致的误检率从23.7%降至5.1%,在工业质检系统中将阴影引起的缺陷识别错误率降低至3.4%。这种高精度特性得益于扫描机制对语义连续性的强化,使得模型能够准确区分阴影区域的纹理特征与非阴影区域的语义结构。

未来研究方向主要集中在动态扫描路径优化和跨模态应用拓展。当前扫描机制在复杂光照变化场景下仍存在局部特征遗漏问题,后续研究计划引入光流辅助的扫描路径规划。此外,在医疗影像分析和卫星遥感图像处理等领域的应用探索已提上日程,特别关注阴影去除与深度估计的联合优化问题。

该研究为图像质量增强领域提供了重要的技术范式转变。通过创新性地将状态空间模型引入视觉任务,不仅解决了Transformer架构的计算瓶颈,更重要的是建立了区域特征与全局语义的协同优化机制。这种架构设计思想可推广到其他需要区域特性与全局一致性平衡的任务,如医学影像分割、遥感图像分析等复杂场景的处理。研究团队已开源代码库(GitHub: ZHUXIUJINChris/ShadowMamba),为后续研究提供了重要的技术基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号