在U-Net中利用空间-通道注意力机制来提升火星沙尘暴的分割效果
《Image and Vision Computing》:Leveraging spatial-channel attention in U-Net for enhanced segmentation of martian dust storms
【字体:
大
中
小
】
时间:2025年10月09日
来源:Image and Vision Computing 4.2
编辑推荐:
火星沙尘暴自动检测研究提出CBAM增强的U-Net架构,通过注意力机制与加权损失函数处理数据不平衡和模糊边界问题,在MDAD v1.1数据集上取得0.6502 IoU和0.6883 Dice,较传统U-Net提升3%,参数量减少至23M的8.5%。该模型为火星气候分析和探测任务规划提供高效工具。
自动化检测火星尘暴是分析行星气候动态的重要环节,然而,由于尘暴边界模糊以及数据中的异常现象,这一过程仍然面临诸多挑战。本研究提出了一种基于卷积块注意力模块(CBAM)增强的U-Net架构,用于从火星侦察轨道器(MRO)的火星颜色成像仪(MARCI)每日全球地图(MDGMs)中进行尘暴分割。该方法结合了注意力驱动的特征优化、类别不平衡的缓解策略以及处理全球地图中缺失数据的补丁方法。通过在MDAD数据集上的测试,该模型实现了0.6502的交并比(IoU)和0.6883的Dice分数,比基线U-Net模型提升了3%,同时参数量减少了8倍(1.95M vs 23M),显著降低了计算成本。消融实验表明,CBAM模块有助于减少误报并保留细节边界;案例研究还显示,模型在某些情况下能够检测到人工标注中遗漏的亚视觉尘暴特征,表明其在发现边缘大气现象方面具有潜在价值。本研究建立了一个高效框架,用于处理行星图像数据,在准确性和计算实用性之间取得了良好平衡。
火星尘暴的准确检测和分割对于有效监测、预测和应对尘暴至关重要。然而,传统的依赖卫星图像或气象数据的视觉检查方法往往耗时、劳动密集且容易受到主观解释的影响。因此,自动化图像分析技术成为解决这一问题的关键工具。近年来,深度学习,特别是卷积神经网络(CNNs),在语义分割领域取得了重大进展,达到了各种计算机视觉任务的最先进水平。U-Net架构以其编码器-解码器结构和跳跃连接,特别适用于生物医学图像分割,并已被成功应用于其他领域,包括遥感应用。然而,尘暴的复杂模式,如变化的强度、模糊的边界和与背景特征的低对比度,对标准CNN模型构成了重大挑战。现有的尘暴分割深度学习方法经常难以准确描绘微妙或破碎的尘暴区域,这些限制主要源于类别不平衡、难以捕捉尘暴结构中的长程依赖关系以及对光照和大气条件变化的敏感性。尽管数据增强和加权损失函数已被用于解决类别不平衡问题,但仍需进一步改进以提高分割的准确性和鲁棒性。
注意力机制在语义分割任务中变得越来越重要,使网络能够选择性地关注信息丰富的图像区域,同时抑制无关噪声。这些模块使模型能够更有效地优先考虑显著特征并捕获上下文信息,从而在复杂场景中实现更好的性能。特别是,CBAM模块通过结合通道注意力和空间注意力机制,展现出对图像内容的更全面理解。本研究探讨了将CBAM模块集成到U-Net架构中,以提高卫星图像中尘暴分割的准确性。此外,研究还探讨了如何利用加权二元交叉熵(WBCE)损失函数和不同超参数对模型性能的影响。所提出的模型在两个数据集上进行了评估,展示了其在尘暴分割任务中的优势。
在遥感领域,基于CNN的策略依然被广泛使用,即使其技术已有几十年的历史。近年来,深度学习的发展使U-Net及其变体成为卫星图像分割任务中的高效架构,这得益于其在保持空间细节和实现深度语义表示方面的独特能力。在地球,U-Net模型已被广泛应用于多种领域,如使用Sentinel-2图像进行野火检测,其中U-Net、U-Net++和注意力ResU-Net等模型表现出高F1分数和分割精度。在城市遥感中,Dense U-Net变体通过改进采样块处理类别不平衡问题,显示出在分割小型结构如建筑物方面的优越性能。此外,U-Net还成功应用于使用Sentinel-1 SAR数据进行洪水测绘,展示了其在光学和雷达模式下的强大适应性。在行星环境中,带有注意力机制的U-Net已被用于月球表面分割和农业遥感,证明了该模型在不同领域和传感器类型中的广泛适用性。这些成功案例凸显了采用带有注意力机制的U-Net架构进行语义分割任务的合理性。
关于火星尘暴的自动化分析,最早的贡献来自于Maeda等人,他们使用火星轨道器相机(MOC)上的多光谱数据,提取手工特征并应用支持向量机(SVM)对尘暴区域进行分类。他们的方法在检测精度上达到了约80%,但未能在像素级别定位尘暴区域。2019年,Gichu等人提出了一种基于主成分分析(PCA)和轻量多层感知机(MLP)的分割流程。他们从MOC MGS RGB波段的图像中提取小图像块,对红蓝通道进行PCA处理,并将生成的特征向量组合成MLP分类器,以对每个像素进行分类。尽管该方法在使用30×30像素图像块时达到了0.978的AUC分数,但其应用范围受到Kulowski等人识别的高尘暴频率区域的限制。2022年,同一批研究人员采用U-Net架构,并使用从两个特定火星区域(Hellas Basin和Arcadia Planitia)提取的更大图像块进行训练。该模型在分割精度上优于前一方法,达到0.983的AUC分数,但其适用性受到训练数据仅限于两个地理区域的限制,从而影响了其在行星表面的泛化能力。同年,Alshehhi等人提出了一种基于Mask R-CNN的检测方法,使用MOC MGS MDGMs进行火星尘暴检测。他们利用MDAD v1.0中的尘暴中心坐标,将其转换为固定大小的120×120像素边界框。该模型报告了约62.1%的平均精度,但由于MDAD v1.0缺乏精确的尘暴边界,仅能基于中心进行检测,无法恢复尘暴区域的实际形状。Mengwall等人在2022年实施了一种基于补丁的U-Net模型,用于MRO MARCI MDGMs上的水冰云分割。他们将每张全球地图划分为重叠的668×668像素补丁,每个补丁之间有50%的重叠,并设计模型生成中心的484×484像素预测云掩膜,忽略补丁的边界。为了解决训练数据中的类别不平衡问题,他们采用了加权二元交叉熵损失。该模型表现出令人印象深刻的性能,接近82%的IoU准确率,证明了这种基于补丁的U-Net架构在火星全球云分割中的高效性和准确性,并可能扩展至尘暴分割。
Long等人在2021年使用U-Net架构和预训练的InceptionV3编码器处理尘暴分割任务,通过在跳跃连接中添加通道和空间注意力机制来增强模型性能。他们使用MDSSD数据集创建了1024×1024像素的大补丁,最小重叠,达到了0.6532的Dice分数。然而,MDSSD中的尘暴数量少于MDAD,因此本研究更侧重于更全面的MDAD数据集,目标是开发一个无需依赖预训练主干的更高效的模型。近年来,用于遥感应用的方法也开始引入Transformer模型,尽管这些方法在计算资源消耗方面高于CNN,需要庞大的数据集和高性能硬件才能获得可接受的结果。
在本研究中,我们采用了U-Net架构进行火星尘暴分割任务,以处理MDGMs数据。U-Net是一种CNN,最初用于生物医学应用,但后来被证明在多个领域都具有强大的分割能力。该架构由编码器和解码器网络组成,通过跳跃连接将特征从早期层传递到解码器,以帮助解码器基于编码器的高分辨率特征更精确地构建输出。我们选择这种架构而不是其他方法,是因为它在准确性和计算成本之间提供了良好的平衡:如其他研究所示,像Mask-CNN这样的其他架构虽然在准确率上有所提升,但相对更复杂,计算成本更高。相比之下,基于U-Net的方法在计算上更为高效,即使是最轻量级的Transformer模型,其计算需求也远高于U-Net。
基于之前研究中提到的改进分割性能,我们在每个跳跃连接中引入了CBAM模块。CBAM由两个子模块组成:通道注意力模块(CAM)和空间注意力模块(SAM)。CAM旨在通过捕捉特征图中每个通道的重要性,增强网络对信息丰富通道特征的关注能力。这对于尘暴分割尤为重要,因为尘暴通常在红色(R)通道中更为显著。通过赋予更相关通道更高的权重,该模块有助于模型更好地利用多通道输入特征,从而提升分割性能。CAM通过在空间维度上应用全局最大池化和平均池化,然后通过一个具有单隐藏层和16倍压缩率的共享多层感知机(MLP)计算通道注意力图。这一注意力图通过逐元素乘法应用于输入特征图,以增强模型对关键特征的关注。
SAM则专注于识别特征图中最具信息量的空间区域,使模型能够突出尘暴可能发生的区域。与CAM类似,SAM在通道维度上使用平均和最大池化,将池化后的输出连接并通过卷积层,再通过Sigmoid激活函数生成空间注意力图。该注意力图同样通过逐元素乘法应用于输入特征图,以提升模型对空间特征的关注度。在本研究中,我们选择了Leaky ReLU作为U-Net架构中的激活函数,而不是传统的ReLU。这一选择是为了应对“死亡ReLU”问题,即某些神经元可能因负输入的零梯度而失去学习能力。此外,已有研究表明,Leaky ReLU在U-Net架构中可以带来更高的分割准确率。
图1展示了本研究中使用的U-Net架构的逻辑结构,其通道宽度比传统U-Net更宽,以捕捉更丰富的特征表示。在上采样阶段,没有信息损失,确保输出掩膜保留原始补丁的大小。通过这种方式,模型能够在保持高分辨率的同时,有效分割尘暴区域。
在实验设置部分,我们提出了一个实验协议,包括涉及的数据集、训练细节和进行的消融研究。为了获取尘暴实例的地面真实数据,我们使用了MDAD数据集。MDAD是一个全面的资源,收录了14,794个尘暴实例,覆盖多个火星年,面积超过10^5平方公里。MDAD可以在以下链接找到:https://doi.org/10.7910/DVN/F8R2JX。每行代表一个特定火星日上的尘暴实例,并包含关于尘暴实例置信度的信息,值为100、75和50,基于视觉检查。这些值反映了尘暴边界准确性的置信度,其中50表示最低置信度,并区分尘暴实例与背景光度的显著性。置信度为100表示尘暴的整个边界与地表明显区分,误差在几个像素范围内。任何存在缺失数据的实例最多只能获得75的置信度,并在其对应的行中被标记为“缺失数据”。在本研究中,我们包含了所有尘暴实例,无论置信度如何,以避免将实际尘暴区域误判为无尘暴区域。
随后,MDAD被更新到v1.1版本,以包含从MARCI年份(MY 28-32)的尘暴轮廓。MDAD v1.1可在以下链接找到:https://doi.org/10.5281/zenodo.7480334。该数据集以两种格式发布。在本研究中,我们使用了第二种格式,它由一系列逗号分隔值(CSV)文件组成。每个文件对应MDAD v1.0中的一个尘暴实例,包含两列,分别表示东经和纬度的点,按顺序描绘尘暴边界线段。边界分辨率为1/10度,因此每行的列表对应于相对MDGM的一个独特像素。利用该数据集,我们为每个包含尘暴的MDGM生成了掩膜,以勾勒出受尘暴影响的区域。
MDAD数据集涵盖了从火星年(MY)24到MY 28的MGS MOC MDGMs,以及从MY 28到MY 32的MRO MARCI MDGMs。每个MDGM覆盖整个火星表面,从180°W到180°E,从90°S到90°N。该数据集以0.1°经度×0.1°纬度和0.05°经度×0.05°纬度的像素分辨率发布。在本研究中,我们使用了0.1°分辨率的MDGMs,因为它们提供了更高的空间分辨率和更详细的图像信息,尽管这需要更大的存储空间。每个MDGM由最多13个连续的全球图像条带组成,这些条带在大约一个火星日的时间段内拍摄,时间为当地时间15:00左右。为了创建无缝的全球地图,条带之间的重叠区域通过加权平均方法合并,将光照条件更好的像素赋予更高的权重。此外,相邻的MDGMs之间有1个条带的重叠,有助于确保连续每日全球地图的一致性。该数据集被划分为任务阶段(如“P”、“B”等),并进一步细分为子阶段(如“P01”、“P02”等)。每个任务阶段大约包含22-23个子阶段,每个子阶段对应大约一个月的数据。
MDGM从版本1升级到版本2,改进了地理定位的准确性,并采用了一种更稳健的辐射校准方法,该方法对每个图像条带应用归一化框架,减少了残余的像素间亮度变化,从而减少伪影。在本研究中,我们使用了版本2的MARCI MDGM数据集,因为它提供了比版本1更高的空间分辨率和更详细的图像信息。这种增强的分辨率对于更好地区分尘暴与火星地表至关重要,尽管这需要更大的存储容量。
MDSSD数据集提供了关于尘暴实例和尘暴序列的信息,这些信息是通过MRO MARCI MDGMs手动识别的,主要关注尘暴序列。该数据集包括尘暴实例的像素级位置、时间、尘暴ID、序列ID以及置信度从1到4的值,其中4为最高。MDSSD可在以下链接找到:https://doi.org/10.7910/DVN/0XB6KN。
在预处理阶段,MDGMs经历了一系列步骤,以准备作为模型的输入。这一阶段的目标是生成图像补丁及其对应的掩膜,这些掩膜突出了受尘暴影响的区域。整个过程如图2所示。对于MDAD v1.0中列出的每个尘暴,我们从MDAD v1.1中提取其空间边界。然后,使用这些边界创建二进制掩膜:每个尘暴在黑色背景上表示为白色前景,即尘暴区域。接下来的预处理步骤涉及移除MDGMs东和西边缘的黑色像素边框。通常,这些边框仅宽几像素,但在某些情况下,整个条带可能缺失,此时这些条带将被完全移除。此外,图像的上部和下部边框通常包含随太阳经度变化的黑色像素行,因此这些行也被移除。
为了获得更清晰的补丁划分,我们在图像的东和西边缘各添加了36个像素。与传统的缩放方法不同,我们利用MDGM是一个全球图像且在边缘处循环这一特性,使用图像的另一侧来完成边缘的补丁划分。需要注意的是,由于从东和西边框移除了约0.3度的黑色像素,添加的区域可能无法完美对齐。然而,这种方法优于在补丁之间保留黑色像素列。图3展示了这一预处理步骤前后的MDGM图像,以及最终补丁划分和对应的掩膜结果。
最后,MDGM被划分为补丁及其对应的掩膜。补丁划分策略设计为确保每个像素至少包含在两个补丁中。具体而言,每个补丁的尺寸为668×688×3像素,使用334像素的步长进行划分,即50%的重叠率。如果补丁中黑色像素的数量多于非黑色像素,则该补丁将被丢弃。这种情况可能发生在图像中心缺失整个条带时。通过丢弃这些无用的补丁,我们避免将无用数据输入模型,同时减少需要处理的补丁数量,从而降低总体训练时间。图3还展示了该最终步骤的输出,显示了补丁及其对应的掩膜。同样的预处理步骤也应用于MDSSD数据集,以生成相应的补丁-掩膜对,其中MDSSD已经提供了尘暴的边界信息。
在训练阶段,预处理后的MDGMs被划分为668×688×3像素的补丁,对应的掩膜为668×688×1像素。每对补丁和掩膜在训练前生成并保存到磁盘,以减少训练过程中的时间消耗。模型仅在MDAD数据集的B任务阶段进行训练,以确保训练过程可控,并允许快速评估模型性能。补丁及其对应的掩膜按顺序划分为70%训练集、15%验证集和15%测试集,分别对应MDAD数据集的9341、2002和2002对,以及MDSSD数据集的7037、1058和1059对。这种有序划分是为了防止训练和测试数据之间的数据泄漏,即使相邻数据集之间存在轻微重叠。
在训练过程中,训练集的数据进一步进行增强。数据增强通过应用垂直翻转、水平翻转以及旋转组合实现,增加了训练数据的多样性和数量,最终获得37364个补丁和掩膜。对于MDAD数据集,这将训练集扩展至37,364个实例,总数据对数达到41,368。同样,对于MDSSD数据集,训练集被增强至28,148个实例,总数据对数为31,165。类别分布在两个数据集中有所不同。MDAD数据集的每个子集包含约40%的正样本,而MDSSD数据集的每个子集包含约50%的正样本。
本研究采用加权二元交叉熵(WBCE)损失函数进行模型训练,特别适用于解决数据集中类别不平衡的问题,其中前景类(即尘暴像素)仅占总像素的约3.5%。二元交叉熵(BCE)损失函数在二分类分割任务中广泛使用,其目标是将每个像素分类为前景或背景(1或0)。BCE损失函数衡量预测概率(通过Sigmoid激活函数获得网络输出后)与每个像素的地面真实二进制标签之间的差异。然而,由于前景和背景类之间的显著不平衡,对前景像素的错误会受到更重的惩罚。通过引入对前景类的加权因子,可以更有效地补偿类别不平衡问题,使得前景像素对损失的总体贡献与背景像素相当。在本研究中,我们实验性地选择了pos_weight为23,因为它在性能和训练稳定性之间提供了最佳的平衡。相比之下,更高的权重(如28)会导致训练不稳定,因为损失值过高。较低的权重(如18)虽然实现了相似的IoU、Dice和精度分数,但其召回率比23低约20%。此外,我们还尝试了标准的无加权BCE损失函数,但发现模型无法有效从不平衡数据中学习。虽然其精度接近1,但召回率接近0,表明模型几乎将所有像素分类为背景。
在模型训练过程中,我们选择了一个合适的训练时间。在大约90个epoch后,验证损失开始显著偏离训练损失,表明模型已经收敛。此外,我们还探索了不同的学习率和批量大小,以优化模型性能。学习率的选择至关重要,过高会导致模型无法有效学习,而过低则会显著降低训练速度。在本研究中,我们选择了1e-4作为学习率,因为它在学习速度和收敛性能之间提供了最佳平衡。批量大小的选择也影响了模型性能,但实验表明,使用标准批量大小(16)已经足够有效。此外,我们还测试了其他优化器,如AdamW,以提高模型的训练效率和性能。
在评估模型性能时,我们使用了多个标准指标,包括IoU、Dice、精度和召回率。这些指标共同反映了模型在分割任务中的表现。此外,我们还计算了宏F1分数,以提供一个平衡的性能度量,通过为每个类别独立计算精度和召回率的调和平均数,这是处理不平衡数据集的有效方法。实验结果表明,CBAM模块的引入显著提升了分割性能,尤其是在处理复杂尘暴结构和模糊边界方面。
尽管取得了显著进展,但该模型仍存在一些局限性。其性能依赖于输入图像的质量,噪声或伪影可能导致误检,如某些测试案例所示。此外,当前的标注过程依赖于人工标注,这可能耗时且容易受到主观解释的影响。训练数据集的有限规模也可能限制模型对未见过的数据或不同地理区域的泛化能力。由于训练数据仅来自MDAD的一个任务阶段,模型可能在其他阶段表现不佳,特别是如果尘暴集中在特定区域而不是全球分布。因此,为了保持计算需求在可控范围内,我们选择了特定的任务阶段进行训练。
未来的研究方向包括探索半监督学习方法以提高标注质量,开发专门用于卫星图像的降噪算法以增强模型的鲁棒性并减少误报。此外,扩展数据集的范围,检查相邻的火星日或参考专家标注,可以为模型提供间接有用的信息,以提高其定位尘暴的能力。引入其他注意力机制,如Transformer,可能带来互补的好处,通过更有效地捕捉全局上下文信息。最后,将模型扩展为执行多时序分割,利用时间序列数据跟踪尘暴的演变,是一个提升预测精度和为受影响区域提供及时警报的有前景的方向。本研究的成果为利用深度学习技术在图像分析中推进自动化尘暴监测和应对策略提供了坚实的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号