
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于频域关键帧插值去噪的扩散模型视频编辑加速技术研究
【字体: 大 中 小 】 时间:2025年06月29日 来源:Neurocomputing 5.5
编辑推荐:
为解决扩散模型在视频编辑中计算量大、处理速度慢的问题,研究人员提出频域关键帧插值去噪技术(FKID),通过动态选择语义关键帧并结合傅里叶变换插值算法,将高分辨率长视频处理速度提升3倍以上,同时保持CLIP、DINO等美学指标领先性能。该研究为实时视频生成与编辑提供了高效解决方案。
在视频编辑领域,扩散模型(Diffusion Models)已成为生成高质量内容的主流框架,但其空间域逐帧去噪的计算密集型特性导致处理高分辨率、长视频时效率低下,生成一段480p的120帧视频甚至需要超过10分钟。这种延迟严重制约了社交媒体、新闻播报等实时性要求高的应用场景。尽管现有方法如RAVE、Tune-A-Video等通过文本引导实现了创意编辑,但普遍存在计算冗余问题——视频连续帧间的高相似性未被充分利用。
针对这一瓶颈,杭州电子科技大学的研究团队在《Neurocomputing》发表了一项突破性研究。他们发现视频帧的频域特征(如傅里叶变换后的振幅谱)能有效保留纹理一致性,而相位谱则承载内容信息。基于此,团队开发了频域关键帧插值去噪技术(Frequency-domain Keyframe Interpolation Denoising, FKID),通过动态选择语义关键帧并利用频域插值重建中间帧,将传统算法的计算量降低三分之二。实验显示,该方法仅需1分46秒即可生成10步优化的视频,如"蓝熊水上行走"等复杂场景,同时维持CLIP(跨模态相似度评估)和DINO(自监督视觉特征)指标的领先水平。
关键技术包括:1)基于DAVIS数据集视频和网络采集的主角图像构建测试集;2)采用BLIP-diffusion预训练模型实现文本-图像对齐;3)通过动态阈值(Thrd)控制频域高低成分的保留比例;4)开发频域插值模块重构非关键帧。
研究结果
频域特征分析:通过二维傅里叶变换证实,遮蔽频谱中心低频区域会强化边缘细节(高频主导),而振幅谱能保持原始图像90%以上的纹理一致性,为频域插值提供理论基础。
关键帧动态选择:基于帧间语义相关性(如CLIP特征距离)自适应选取关键帧,较固定间隔法减少40%冗余计算,同时确保重要内容(如运动主体)的精确去噪。
频域插值优化:通过分析相邻关键帧的频率成分和时间间隔,动态调整插值权重。当Thrd=0.7时,重建帧的PSNR(峰值信噪比)较传统方法提升2.1dB,显著改善时序连贯性。
性能对比:在480p视频生成任务中,FKID以3倍速度优势超越RAVE(12分30秒/50步)和Tune-A-Video(30分钟),且生成结果在用户调研中获得82%的流畅度偏好率。
该研究首次将频域处理与关键帧机制结合,突破了扩散模型在视频编辑中的效率瓶颈。其创新性体现在:1)通过语义关键帧选择避免冗余计算;2)利用频域线性插值保持运动连续性;3)动态阈值机制实现局部特征优化。这不仅为实时视频生产提供了工具支持,更启发了生成式AI在计算优化方向的新思路——通过挖掘数据本身的时空冗余性来提升效率。未来工作可探索多尺度频域处理或结合光流约束,进一步缩短4K视频的生成周期。
生物通微信公众号
知名企业招聘