
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于边缘检测与多频融合的无Trimap图像抠图算法DiffMatter研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Computer Vision and Image Understanding 4.3
编辑推荐:
【编辑推荐】针对传统图像抠图方法依赖人工标注trimap导致成本高、自动抠图方法难以平衡细节与效率的问题,研究人员提出无trimap的DiffMatter模型。通过边缘检测定位前景边界,设计多频融合模块(FFM)整合高低频特征,结合注意力嵌入与跨感知机制,在Composition-1k等数据集上MSE降低22.1%,实现了性能与计算效率的平衡,为自动抠图提供新范式。
在影视后期制作和图像编辑领域,精准分离前景与背景的图像抠图技术一直是核心挑战。传统方法依赖人工标注的trimap(三分图)来约束前景边界,虽能提升精度,但高昂的标注成本成为瓶颈。而现有自动抠图方法往往陷入两难:复杂网络结构虽能捕捉语义信息,却难以恢复细节且计算效率低下;简单模型虽轻量,但对复杂边界的适应性不足。这种"细节与效率不可兼得"的困境,正是哈尔滨商业大学Anming Sun团队在《Computer Vision and Image Understanding》发表的研究试图破解的关键问题。
研究团队提出名为DiffMatter的创新框架,其核心技术在于将边缘检测与多频特征融合相结合。通过构建频率融合模块(Frequency Fusion Module, FFM),采用"特征增强-交叉融合-信息整合"的三阶段范式,分别处理高频(纹理)和低频(语义)特征。其中纹理增强模块强化边缘细节,语义增强模块提取全局信息,再通过跨融合操作促进特征交互。为弥补Transformer在局部特征捕捉的不足,设计注意力嵌入模块(Attention Embedding)和跨感知机制(Cross-aware Module),从通道和空间维度提升表征能力。实验采用Composition-1k、Distinctions-646等标准数据集,通过MSE(均方误差)和SAD(绝对差和)指标评估性能。
【Method overview】
DiffMatter采用编码器-解码器架构,编码器由注意力嵌入层、块合并层和混合注意力模块(HAM)构成。边缘引导模块(EGM)通过跨注意力机制利用边界信息区分前景,解码器则通过HAM和块扩展层逐步恢复分辨率。FFM模块被嵌入到不同分辨率层中,实现多尺度特征融合。
【Experiments】
在Composition-1k测试集上,DiffMatter的MSE和SAD分别较TangNet降低22.1%和50.7%,在Distinctions-646数据集上同样显著领先。消融实验验证了FFM模块的普适性——将其移植到其他SOTA模型如GCAMatting后,性能提升达15.3%。可视化结果显示,该方法对透明物体(如玻璃杯)和毛发边缘等复杂场景具有更精细的抠图效果。
【Limitations】
研究存在两点局限:一是依赖训练数据中显著前景物体的边界信息,对多主体平等突出的图像处理效果下降;二是边缘检测模块对低对比度边界的敏感性仍需优化,如图10所示的部分失败案例。
【Conclusion】
该研究通过边缘引导和多频融合的创新结合,实现了trimap-free抠图技术的突破。FFM模块的插件式设计为其他视觉任务提供了特征融合新思路,而注意力嵌入与跨感知机制有效缓解了Transformer的局部特征缺失问题。这项工作不仅为自动抠图建立了新的性能基准,其模块化设计更为轻量化计算机视觉模型开发提供了可借鉴的范式。正如作者Anming Sun所述,未来将进一步探索动态频率权重分配机制,以应对更复杂的真实场景需求。
生物通微信公众号
知名企业招聘