CrossFlow：通过局部与非局部特征交叉匹配学习光流成本体积

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月29日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　本文提出CrossFlow方法，创新性地通过交叉匹配局部（CNN提取）与非局部（Transformer提取）特征构建四维融合成本体积（cost volume），有效解决了光流估计中运动模糊和大位移等难题。该方法在Sintel和KITTI基准上分别超越基线模型CRAFT达7%和10%，为计算机视觉任务提供了更精准的像素级运动表征技术。

Highlight

• 通过结合CNN与Transformer编码器，有效整合目标帧和源帧的非局部与局部特征，增强光流估计的成本体积学习能力

• 通过自适应Softmax层融合四种相关性体积构建四维集成成本体积，有助于找到更优对应关系

• 由于在成本体积构建中有效融合全局上下文与细粒度细节，本方法可实现比现有光流网络更高的估计精度

Related work

本节将回顾现有光流估计与视觉Transformer网络的相关研究。

Method

图2展示了本方法的整体架构。CrossFlow主要包含三个核心组件：（1）分别应用于目标图像和源图像的CNN与Swin Transformer块组成的双特征编码器；（2）通过Softmax层融合四种跨帧相关性类型生成四维集成成本体积；（3）基于GMA的GRU模块，该模块在多尺度成本体积上执行查找操作并迭代更新光流，其设计与RAFT网络共享相似理念但加入了门控运动注意力机制增强性能。

Experimental setup

我们使用Python和Pytorch实现该方法。实验在配备24GB显存NVIDIA TITAN RTX GPU的4029GP-TRT服务器上进行。

Conclusion

我们提出了名为CrossFlow的新型光流估计网络。该方法通过在目标帧和源帧上同时采用CNN与Transformer编码器，有效融合非局部与局部图像信息并抑制噪声。此外，通过Softmax层自适应融合四种相关性体积构建四维集成成本体积，实现了不同频率信息间的优化平衡。实验结果表明所提出的CrossFlow在保持计算效率的同时显著提升了光流估计精度。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号