DynaGuide:一种通用的动态引导框架,用于零样本引导的无监督语义分割
《Image and Vision Computing》:DynaGuide: A generalizable dynamic guidance framework for zero-shot guided unsupervised semantic segmentation
【字体:
大
中
小
】
时间:2025年10月23日
来源:Image and Vision Computing 4.2
编辑推荐:
零样本无监督语义分割框架DynaGuide,通过动态双引导策略(全局伪标签+局部CNN精炼)和自适应损失函数(特征相似性+空间连续性+全局引导),显著提升分割精度。实验表明在BSD500、PASCAL VOC2012和COCO数据集上mIoU分别达0.566、0.474、0.523,优于基线方法。该框架保持轻量级设计,参数仅11.6万,FLOPs约7.0 GFLOPs,支持实时部署。
零样本引导的无监督图像分割技术是一种无需依赖目标领域标注数据即可实现密集场景理解的算法,这种方法在缺乏标注数据的领域中特别有价值,如医学影像、遥感图像和自动驾驶等。然而,现有方法在全局语义一致性与细粒度边界精度之间常常难以取得平衡。本文介绍了一种名为DynaGuide的自适应分割框架,通过新颖的双引导策略和动态损失优化来解决这一挑战。DynaGuide基于之前的工作DynaSeg,将全局伪标签与局部边界细化相结合,利用一个从头训练的轻量级卷积神经网络(CNN)进行优化。关键的是,这些全局伪标签可以来源于完全无监督的模型,如DiffSeg,也可以来源于监督预训练模型,如SegFormer。在所有情况下,这些模型仅作为未见数据的冻结先验,确保DynaGuide在目标领域中无需任何真实标签即可进行训练。
训练过程由一个多组件损失函数驱动,该函数动态平衡特征相似性、使用Huber平滑的空间连续性(包括对角线关系)以及与全局伪标签的语义对齐。在BSD500、PASCAL VOC2012和COCO等数据集上的广泛实验表明,DynaGuide实现了最先进的性能,mIoU在BSD500上提高了17.5%,在PASCAL VOC2012上提高了3.1%,在COCO上提高了11.66%。其模块化设计、强大的泛化能力和最小的计算开销,使得DynaGuide成为零样本引导的无监督分割在现实世界中的可扩展和实用解决方案。
随着深度学习技术的发展,无监督分割方法逐渐成熟,但大多数方法仍然面临如何在不依赖标注的情况下实现全局语义一致性与细粒度边界精度之间的平衡问题。例如,基于聚类的方法如IIC、PiCIE和STEGO虽然能够捕捉广泛的语义类别,但往往产生粗糙或碎片化的物体边界。而最近的零样本分割方法如DiffSeg,利用扩散模型生成注意力图,虽然在捕捉全局布局方面有效,但通常难以生成清晰的边缘或稳健的细节。为了进一步说明我们的方法,我们还提供了定性比较,如图3所示,展示了DiffSeg在边界精度上的不足,而DynaGuide能够成功恢复细粒度的物体细节和更清晰的轮廓。
为了解决这一问题,我们提出了DynaGuide,这是一个灵活且可泛化的零样本引导无监督分割框架。DynaGuide通过双引导策略改进分割预测,该策略结合了来自外部模型的全局伪标签(如DiffSeg或SegFormer)和轻量级CNN的局部细化。与以往的工作不同,DynaGuide的双引导策略能够连续修正粗糙的预测,从而产生既语义一致又空间精确的结果。CNN细化模块专门设计用于边界精度,它保留完整的输入分辨率,使用残差连接以确保优化的稳定性,并专注于捕捉局部边缘和纹理。这种设计使得CNN细化模块能够与全局伪标签互补,全局伪标签捕捉语义布局,但缺乏边界精度。值得注意的是,该框架在目标领域中保持无标签状态,CNN从头训练,而全局模型仅作为未见数据的冻结先验。这种设计使得DynaGuide能够统一使用无监督全局先验(如DiffSeg)和监督预训练先验(如SegFormer),而无需监督微调。
我们的实验结果表明,DynaGuide在多个数据集上取得了最先进的性能,包括BSD500、PASCAL VOC2012和COCO。该模型能够稳定地捕捉细粒度细节,并对复杂场景进行稳健分割。图1展示了DynaGuide的代表性结果,突出了模型在分割“Things”(Th)和“Stuff”(St)类别上的能力,强调了其在处理复杂视觉场景中的鲁棒性。总之,我们的贡献包括:1. 通用的双引导框架;2. 自适应的多组件损失函数;3. 无监督和模块化的引导;4. 先进的性能表现。
本文的其余部分组织如下:第2节回顾了无监督分割和伪标签相关的研究。第3节介绍了DynaGuide的架构、双引导机制和自适应损失。第4节提供了实验结果、比较和消融研究。第5节总结了本文,并讨论了未来的研究方向。
无监督语义分割旨在通过没有标注标签的方式将像素分组为语义连贯的区域。传统基于聚类的方法如K-means、均值漂移和图分割方法奠定了像素分组的基础,这些方法通过外观和邻近性进行分组。然而,这些方法依赖于手工设计的特征,通常导致粗糙的分割结果,难以对细粒度的物体边界进行准确划分。深度学习通过学习特征表示推动了无监督分割的发展,如IIC和PiCIE,这些方法利用互信息和等变性进行像素级分组。更近期的工作则利用自监督视觉Transformer:STEGO和DeepSpectral从DINO-ViT特征中提取物体级语义,而COMUS和ProtoCon则通过注意力或原型对齐来细化聚类一致性。
近年来,一些基于聚类的框架扩展了这一趋势。Cheung等人提出了一种轻量级聚类方法,高效生成块级伪掩码,但依赖静态聚类,限制了边界适应性。Niu等人引入了U2Seg,这是一个涵盖语义、实例和全景分割的通用分割框架,但其静态聚类阶段限制了细粒度的准确性。Pu等人开发了DEM-Net,该模型将深度学习与期望最大化聚类结合,以联合学习特征和分配,但仍然在复杂场景中产生过于泛化的聚类。这些方法突出了进展,但也指出了在无监督情况下生成锐利、适应性边界的主要挑战。
DynaGuide通过在动态训练循环中统一全局语义先验与局部CNN细化,解决了这一问题,从而实现语义一致性与空间精度的迭代改进。DynaGuide的CNN细化模块专门设计用于捕捉细粒度的空间特征,从而增强边界细化和分割一致性。通过迭代学习,CNN能够适应全局引导不准确的区域,有效细化分割掩码。残差学习机制进一步有助于捕捉细节。
DynaGuide的CNN骨干网设计用于捕捉边界细化所需的关键空间特征。不同于传统方法中采用激进下采样的方式,DynaGuide在整个过程中保持输入分辨率,以更准确地细化边界。该骨干网由三个卷积块组成,每个块包含卷积层、批量归一化和ReLU激活。残差连接被引入以解决梯度消失问题并促进稳定收敛。
提取的特征图通过一个1×1卷积层进行处理,该层具有q个滤波器,生成响应图。在批量归一化后,我们得到最终的归一化响应图。最后,每个像素通过归一化响应图和聚类标签之间的比较来分配聚类标签。通过引入Huber损失和对角线连续性组件,DynaGuide改进了DynaSeg的空间连续性损失,提供了更好的分割鲁棒性、更清晰的物体边界和增强的跨数据集适应性。
在无监督分割中,伪标签的质量对结果有重要影响。DynaGuide引入了全局引导损失,以通过整合DiffSeg的伪标签来改进分割。这些伪标签提供了全局分割图,与CNN产生的局部细化相辅相成。通过利用全局模型(如DiffSeg或SegFormer)的分层注意力表示,这种损失确保了大结构上的标签一致性,同时细化像素级别的细节。全局引导损失的计算基于CNN归一化响应图与全局模型的伪标签之间的交叉熵损失,以确保分割的准确性和一致性。
DynaGuide的实验结果表明,其在多个基准数据集上取得了最先进的性能,包括BSD500、PASCAL VOC2012和COCO。通过与最先进的方法进行比较,DynaGuide在多个数据集上展示了显著的性能提升。此外,DynaGuide的轻量级架构和高效的计算开销使其在现实世界应用中成为实用解决方案。其模块化设计允许灵活地利用不同的全局引导模型,无需依赖标注数据或对目标数据集进行微调,从而提升了其在不同场景中的适应能力。
DynaGuide在不同数据集上的表现展示了其在无监督分割中的强大潜力。通过与DiffSeg和SegFormer伪标签进行比较,我们发现DynaGuide在分割精度和边界细化方面具有显著优势。在BSD500上,DynaGuide在所有、精细和粗略分割级别分别实现了mIoU为0.566、0.512和0.523,显著优于DiffSeg的0.364 mIoU。这表明DynaGuide在无监督分割中能够有效捕捉细粒度细节。
在PASCAL VOC2012上,DynaGuide实现了0.474 mIoU,超越了DiffSeg的0.443基准。这证明了DynaGuide在复杂对象分割和保持语义一致性方面的有效性。在COCO数据集上,DynaGuide在COCO-All上实现了42.18 mIoU,显著优于DynaSeg SCF(30.52 mIoU)和其他最先进的无监督方法。在COCO-Stuff上,DynaGuide进一步提升了性能,mIoU达到55.2,像素准确率(pAcc)达到82.4,优于DINO + CAUSE-TR(41.9 mIoU,74.9 pAcc)和DynaSeg FSF(54.10 mIoU,81.1 pAcc)等方法。这些结果表明,DynaGuide在确保空间一致性和细化边界细节方面具有优越的能力。
为了评估DynaGuide的计算效率,我们将其参数数量和浮点运算(FLOPs)与各种先进的分割模型进行了比较。DynaGuide仅需106.4K参数和约6.99 GFLOPs,这使其在计算效率方面具有显著优势。与大型Transformer模型如DINO + HP(164.15 GFLOPs,39.6M参数)相比,DynaGuide实现了更高的效率。这使其成为实时和资源受限应用的理想选择。此外,DynaGuide优于CNN-based方法,提供了更高效的替代方案。虽然像PiCIE和DenseSiam这样的模型在FLOPs方面略有优势,但它们依赖于预训练的骨干网络,而DynaGuide是从头训练的,展示了其稳健性和灵活性。
DynaGuide的轻量级架构和最小的计算需求确保了高效的分割,而不会牺牲准确性。这使其成为各种分割任务的实用选择。DynaGuide的计算优势在参数数量和FLOPs方面得到了体现,相较于先进的方法,其计算效率更高。在实际应用中,这种设计使其适合部署在边缘设备、移动平台和实时系统中,特别是在计算资源有限的情况下。减少的内存和处理需求转化为更快的推理时间和更低的能耗,这对大规模应用如自动驾驶、医学影像和视频监控特别有益。
此外,我们还进行了定性评估,以展示DynaGuide在不同场景中的性能。图4展示了DynaGuide与其他方法在不同场景下的分割结果,包括飞机、海马、钟结构和羊等。这些例子强调了DynaGuide在处理不同亮度、物体颜色差异和复杂阴影方面的稳健性。在飞机场景中,DynaGuide能够准确识别飞机,避免与背景混淆。在海马场景中,DynaGuide能够准确分割每个海马,保持其边界清晰。在钟结构场景中,DynaGuide能够有效保持结构的完整性,避免与背景的不必要分割。在羊的场景中,DynaGuide能够处理阴影,实现准确的分割。在滑雪场景中,DynaGuide能够准确分割每个滑雪者,即使在未标注的场景中也能实现精确的边界定义。
为了验证DynaGuide各个组件的贡献,我们进行了消融研究。通过系统地移除或修改单个元素,我们评估了其对分割性能的影响,使用所有粒度级别的mIoU作为衡量标准。这些研究结果表明,全局伪标签引导、对角线连续性和残差连接的结合显著提升了分割的准确性和一致性。同时,特征提取器的选择也影响了模型的有效性,完整的DynaGuide配置在所有粒度级别上实现了最高的mIoU分数。
DynaGuide的动态聚类策略是其与以往无监督分割方法的一个关键区别。静态聚类方法(如K-means或固定伪标签分配)需要预先定义聚类数量,这在无监督设置中是一个显著的限制。实际中,最优的聚类数量未知且难以提前确定。如果聚类数量被低估,不同的语义区域会被合并;如果被高估,场景会被分割成嘈杂或冗余的聚类。DynaGuide通过动态聚类策略克服了这一限制,训练开始时采用一个较大的初始聚类数量,提供足够的分离。在迭代更新过程中,相似或连续的像素聚类会逐渐合并,受特征相似性和空间连续性约束的影响。最终,活跃的聚类数量会动态减少,稳定在场景的实际语义复杂性附近,从而避免过度分割并提高边界精度。
DynaGuide的双引导策略和动态损失优化使其在无监督分割中表现出色。其模块化设计允许在不同领域和分割先验之间进行灵活调整,同时保持统一的训练协议。这种设计使得DynaGuide能够适应各种场景,而无需依赖任何真实标签或监督微调。DynaGuide的性能提升主要得益于其对全局语义先验和局部边界细化的结合,以及其动态损失函数在特征相似性、空间连续性和全局引导对齐之间的平衡。
综上所述,DynaGuide在零样本引导的无监督语义分割领域提出了一个创新且实用的解决方案。其双引导机制和自适应损失函数不仅提升了分割的准确性,还确保了在不同数据集上的鲁棒性。DynaGuide的模块化设计和高效的计算开销使其成为现实世界应用的理想选择,尤其是在标注数据稀缺的领域中。通过结合全局语义引导和局部边界细化,DynaGuide实现了更精确的分割,同时保持了对复杂场景的适应性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号