
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合卷积注意力与图卷积的视觉Transformer在语义分割中的增强研究
【字体: 大 中 小 】 时间:2025年07月02日 来源:Image and Vision Computing 4.2
编辑推荐:
为解决语义分割中全局上下文建模不足和对象细节处理不佳的问题,研究人员提出结合条纹深度卷积注意力(SDCA)和空间特征图卷积(SFGC)的视觉Transformer增强方法。该研究通过多尺度卷积特征补偿自注意力机制缺陷,并显式建模图像块空间关系,在COCO-Stuff-10K等数据集上实现50.5%-59.1%的mIoU提升,为Transformer在密集预测任务中的应用提供新思路。
语义分割作为计算机视觉的核心任务,其目标是为图像中的每个像素赋予语义标签,在自动驾驶、遥感分析等领域具有重要应用价值。然而,现有方法面临两大挑战:传统全卷积网络(FCN)受限于局部感受野难以捕捉长程依赖,而基于视觉Transformer(ViT)的方法虽能建模全局上下文,却因自注意力机制(self-attention)的扁平化处理导致空间几何关系破坏,对物体细节和边界的处理能力不足。这些问题在复杂场景如街景多尺度目标分割或遥感图像地物分类中尤为突出,亟需既能保持全局建模又能增强局部细节的新方法。
福建理工大学的研究团队在《Image and Vision Computing》发表研究,提出通过条纹深度卷积注意力(SDCA)和空间特征图卷积(SFGC)模块增强ViT编码器。SDCA模块通过聚合多尺度深度卷积(depth-wise convolution)特征生成注意力图,弥补自注意力对细节的忽视;SFGC则构建图像块间的全连接图,通过学习边权重显式建模空间关系。两项模块并行处理Transformer块输出特征,最终在COCO-Stuff-10K、PASCAL-Context和ADE20K数据集分别达到50.5%、59.1%和55.0%的mIoU,超越现有先进方法。
关键技术包括:1)多尺度深度卷积特征融合的SDCA模块设计;2)基于图神经网络(GNN)的SFGC空间关系建模;3)COCO-Stuff-10K等三大基准数据集验证。
方法
研究采用编码器-解码器架构,编码器基于ViT,核心创新是在每个Transformer块后添加SDCA和SFGC模块。SDCA采用大尺寸卷积核增强像素连接密度,SFGC将图像块视为图节点进行特征传播。两者输出特征与原始特征相加后输入后续层。
结果
在COCO-Stuff-10K的171类分割任务中,模型较基线提升3.2% mIoU;PASCAL-Context测试集上对59类(含背景)达到59.1% mIoU,尤其在小物体分割中表现突出。消融实验表明,单独使用SDCA或SFGC可分别提升1.8%和2.1%,联合使用产生协同效应。
结论
该研究揭示了ViT在语义分割中的固有缺陷,并提出双模块优化方案:SDCA通过卷积局部性补偿自注意力的全局偏向,SFGC重建被破坏的空间拓扑。这种"全局-局部-空间"三重增强策略为Transformer在密集预测任务中的应用开辟了新途径,尤其在需要精细边界的医疗影像分析等领域具有潜在迁移价值。研究获福建省自然科学基金(2023J01955)等资助,代码已开源。
生物通微信公众号
知名企业招聘