神经过程驱动的连续条件视频合成:统一框架实现高帧率视频预测与插值

【字体: 时间:2025年05月30日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  本文推荐研究人员针对视频帧插值(VFI)和未来帧预测(VFP)任务分立、离散帧生成限制等问题,提出基于神经过程(NPs)和隐式神经表示(INR)的统一模型NPVP。该Transformer架构通过时空坐标映射实现任意高帧率连续合成,在多个数据集上超越VFI/VFP领域先进方法,为自动驾驶、机器人等场景提供灵活高效的视频生成方案。

  

在数字视觉领域,视频帧插值(VFI)和未来帧预测(VFP)长期被视为两个独立任务——前者依赖前后帧光学流信息填补中间画面,后者需通过历史帧推测未知内容。传统方法存在三大痛点:任务专用模型导致冗余、固定整数时间步生成限制灵活性,以及高帧率训练数据获取成本高。更棘手的是,现实世界的物理运动本质是连续的,而现有模型离散化的输出难以满足自动驾驶实时决策、气象模拟等场景对时序连续性的严苛需求。

针对这些挑战,国内研究团队在《Computer Vision and Image Understanding》发表的研究中,创新性地将神经过程(NPs)与隐式神经表示(INR)相结合,提出名为NPVP的统一框架。该工作首次实现了四大任务集成:视频帧插值(VFI)、未来帧预测(VFP)、过去帧外推(VPE)和随机缺失帧补全(VRC),并通过傅里叶特征网络(FFN)编码时空坐标,突破性支持任意非整数时间点的高帧率视频合成。

关键技术包括:1)采用带自注意力机制的Pix2Pix改进版作为帧自编码器;2)设计基于VidHRFormer的确定性(NPVP-D)和随机性(NPVP-S)神经过程预测器,后者通过变分自编码器(VAE)处理不确定性;3)构建傅里叶特征网络实现连续时空坐标映射。实验采用KITTI、Cityscapes等标准数据集验证性能。

【主要发现】

  1. 统一模型优势:通过多任务联合训练,NPVP在VFI任务PSNR指标上超越VideoINR 2.1dB,VFP任务较Vid-ODE提升1.8dB,证明统一框架反而能增强单项任务表现。

  2. 连续生成突破:在0.1倍时间分辨率下,NPVP生成的1080p视频仍保持运动连贯性,而传统模型在非训练整数时间点会出现明显伪影。

  3. 随机预测能力:NPVP-S通过潜在事件变量ze采样,可生成多样化的合理未来场景,在行人轨迹预测等开放任务中FID指标优于MCVD扩散模型17%。

  4. 计算效率革新:块式自回归预测使NPVP的1080p视频生成速度达到ConvLSTM模型的8倍,满足实时性要求。

这项研究的核心价值在于重新定义了条件视频合成的范式:将传统"像素到像素"的映射转变为"坐标到像素"的连续函数学习。通过神经过程的置换不变性特性,模型能自适应处理任意时空坐标排列的输入;而隐式神经表示则突破了训练数据帧率的限制,使气象模拟等非均匀采样场景的应用成为可能。研究者特别指出,确定性版本NPVP-D更适用于需要唯一解的决策场景,而NPVP-S则适合内容创作类应用。

值得注意的是,当前模型在极端运动模糊情况下仍存在局限,未来可通过引入物理引擎约束进一步改进。这项工作为构建"视觉计算基础模型"提供了新思路——将视频生成视为对连续时空场的神经过程建模,而非简单的序列预测任务,这一理念可能深刻影响下一代计算机视觉系统的设计范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号