《Array》:Multi-information fusion based frequency-aligned network for few-shot segmentation
编辑推荐:
本文针对少样本分割任务中因数据稀缺导致的局部特征变化和视角扭曲等问题,提出了一种融合文本与实例信息的MFANet网络。研究通过频率交互模块整合不同频带特征,结合CLIP模型增强语义对齐,在PASCAL-5i和COCO-20i数据集上实现了最优性能,为小样本视觉任务提供了新思路。
在深度学习技术飞速发展的今天,语义分割已在医疗影像诊断、遥感监测等领域取得显著成果。然而,这些成果严重依赖于大规模标注数据集,而现实世界中获取像素级标注成本极高。特别是在开放场景下,模型面对训练时未见的新类别时往往表现不佳。少样本语义分割(FSS)应运而生,它模仿人类从少量样本中学习新概念的能力,通过支持集和查询集的相似性匹配来实现目标分割。但现有方法在支持-查询图像对存在局部特征差异或视角扭曲时,分割性能会急剧下降。
为破解这一难题,来自广西壮族自治区教育厅先进制造与自动化技术重点实验室(桂林理工大学)的研究团队在《Array》期刊上发表了题为"Multi-information fusion based frequency-aligned network for few-shot segmentation"的研究论文。该研究创新性地提出MFANet网络,通过多信息融合策略显著提升了少样本分割的鲁棒性。
研究团队采用三个核心模块构建MFANet网络框架。特征增强编码器(FEE)通过卷积和池化操作抑制特征提取过程中的噪声;频率交互模块(FIM)利用八度卷积将特征分解为高、中、低频分量,并通过自注意力和交叉注意力机制实现频带间特征对齐;信息融合模块(IFM)则引入CLIP模型的文本嵌入,通过模态对齐增强语义指导。训练过程采用基于元学习的 episodic 训练策略,使用二元交叉熵损失函数进行优化。
3.3 特征增强编码器
研究团队发现直接使用主干网络提取特征会引入噪声,因此设计了辅助编码器FEE。该模块分别提取支持图像和查询图像的高、中、低频特征,并与主干网络特征沿通道维度拼接,通过1×1卷积降维,有效缓解了少样本学习中的特征贫乏问题。
3.4 频率交互模块
FIM模块的创新在于重点关注了常被忽视的中频成分。研究指出,中频特征包含更丰富的结构和形状信息,而高频特征捕捉局部细节,低频特征关注全局结构。模块首先将特征划分为S×S patches,通过线性变换生成查询、键和值,计算注意力权重矩阵,最终通过交叉注意力实现中频与高、低频特征的语义级融合。
3.5 信息融合模块
针对支持-查询图像对不匹配问题,IFM模块利用CLIP的文本编码器生成文本嵌入,将其调整为与视觉特征相同的空间尺寸,通过元素级乘法实现文本与图像特征的融合。这一设计使模型能够捕捉目标的形状、纹理等细节属性,弥补了类内变异导致的信息缺失。
实验结果表明,MFANet在PASCAL-5i和COCO-20i数据集上均达到领先水平。在PASCAL-5i的1-shot任务中,使用ResNet50骨干网络时mIoU达到65.0%,较基线提升4.5%;在更复杂的COCO-20i数据集上,mIoU达到45.2%,提升4.9%。消融实验进一步验证了各模块的有效性:单独使用FEE可提升0.9%,FIM与IFM结合提升2.3%,三者共同作用最终提升2.9%。
研究团队也指出了当前方法的局限性:在特征判别性不足时,支持集与查询集的特征对齐容易受背景干扰或类内变异影响。未来工作将聚焦于高质量特征提取和背景知识利用能力的提升,并探索在农学、医学等特定领域的实际应用。
该研究的重要意义在于成功将频率域分析与多模态学习相结合,为少样本分割任务提供了新范式。通过充分利用中频结构信息和CLIP的语义先验,MFANet有效克服了传统方法对支持-查询对高度相关的依赖,在保持各频带独特特性的同时实现了精准的特征对齐,为小样本学习在真实场景中的应用奠定了坚实基础。