CrossFlow:通过局部与非局部特征交叉匹配学习光流成本体积
【字体:
大
中
小
】
时间:2025年09月29日
来源:Journal of Visual Communication and Image Representation 3.1
编辑推荐:
本文提出CrossFlow方法,创新性地通过交叉匹配局部(CNN提取)与非局部(Transformer提取)特征构建四维融合成本体积(cost volume),有效解决了光流估计中运动模糊和大位移等难题。该方法在Sintel和KITTI基准上分别超越基线模型CRAFT达7%和10%,为计算机视觉任务提供了更精准的像素级运动表征技术。
• 通过结合CNN与Transformer编码器,有效整合目标帧和源帧的非局部与局部特征,增强光流估计的成本体积学习能力
• 通过自适应Softmax层融合四种相关性体积构建四维集成成本体积,有助于找到更优对应关系
• 由于在成本体积构建中有效融合全局上下文与细粒度细节,本方法可实现比现有光流网络更高的估计精度
本节将回顾现有光流估计与视觉Transformer网络的相关研究。
图2展示了本方法的整体架构。CrossFlow主要包含三个核心组件:(1)分别应用于目标图像和源图像的CNN与Swin Transformer块组成的双特征编码器;(2)通过Softmax层融合四种跨帧相关性类型生成四维集成成本体积;(3)基于GMA的GRU模块,该模块在多尺度成本体积上执行查找操作并迭代更新光流,其设计与RAFT网络共享相似理念但加入了门控运动注意力机制增强性能。
我们使用Python和Pytorch实现该方法。实验在配备24GB显存NVIDIA TITAN RTX GPU的4029GP-TRT服务器上进行。
我们提出了名为CrossFlow的新型光流估计网络。该方法通过在目标帧和源帧上同时采用CNN与Transformer编码器,有效融合非局部与局部图像信息并抑制噪声。此外,通过Softmax层自适应融合四种相关性体积构建四维集成成本体积,实现了不同频率信息间的优化平衡。实验结果表明所提出的CrossFlow在保持计算效率的同时显著提升了光流估计精度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号