MSTF-Net:一种多尺度Transformer与频域-空间融合网络,用于压缩视频帧质量的提升(ChinaMM)
《Displays》:MSTF-Net: A Multi-Scale Transformer and Frequency-Spatial Fusion Network for compressed video frame quality enhancement (ChinaMM)
【字体:
大
中
小
】
时间:2025年12月28日
来源:Displays 3.4
编辑推荐:
视频压缩伪影修复中提出CNN-Transformer混合架构MSTF-Net,通过傅里叶频域特征与局部空间特征融合,结合多尺度残差学习和感知优化机制,显著提升PSNR 1.12dB、SSIM 0.0112和VMAF 0.36等指标。
王佳佳|尚秀武|程培志|李国平|王国忠
中国上海工程技术大学电子与电气工程学院
摘要
随着H.266/VVC等视频编码标准的日益普及,高压缩比的视频在质量上会遭受退化,包括块状伪影和色彩模糊等问题。现有的基于深度学习的质量提升方法主要关注空间特征,往往忽略了频域中的全局结构信息,这限制了它们处理复杂压缩失真的能力。为了克服这些限制,本研究提出了一种多尺度变换器和频域-空间融合网络(MSTF-Net),这是一种CNN-Transformer混合架构。MSTF-Net采用了一种协同优化机制,其中傅里叶变换后的频域特征指导空间特征的补偿。此外,还引入了一种双权重机制,以使增强效果更符合人类感知。这种策略使网络能够优先处理对人类视觉高度敏感的区域,并抑制均匀区域中的冗余处理。实验结果表明,MSTF-Net在PSNR、SSIM和VMAF方面的平均提升分别为1.121 dB、0.0112和0.36,证实了其在帧内压缩质量提升方面的有效性。
引言
近年来,超高清视频技术的飞速发展导致视频数据量激增。高效的视频压缩不仅需要显著减少数据量,还要保持令人满意的视觉质量,以实现无缝传输和存储。为此,一系列传统的混合编码标准应运而生,包括通用视频编码(VVC)[1]、高效视频编码(HEVC)[3]、高级视频编码(AVC)[4]和基本视频编码(EVC)[5]。同时,端到端学习-based的压缩范式也崭露头角,它用神经网络替代了手工设计的模块,通过通道自适应潜在表示[6]、持续跨域学习[7]甚至语义感知比特分配[8]等先进技术来优化速率-失真性能。尽管这些学习型编解码器显示出巨大潜力,其对抗鲁棒性也是一个活跃的研究课题[9],但在行业应用中,传统标准如VVC仍然占据主导地位。
对这些传统编码标准的研究沿着两条互补的路径展开。第一条路径针对内部编码器的优化,例如开发快速CU大小决策算法以加速VVC帧内编码[10]。第二条路径(也是我们工作的重点)通过后处理增强来应对压缩不可避免的质量退化。在低比特率下,这种退化变得严重,会导致模糊和块状伪影等视觉损伤。
后处理方法通过从解码后的视频中恢复质量,越来越多地采用深度学习技术,而非预处理技术[12]。这些方法可以根据其架构基础分为三类:卷积神经网络(CNNs)、变换器及其混合体。基于CNN的方法[13]、[14]、[15]、[16]、[17]在捕获局部特征方面表现出色,但由于其局部感受野的限制而受到局限。相比之下,变换器利用自注意力来建模长距离依赖性,在广泛的视觉任务中表现出强大的性能[18]。它们建模复杂空间关系的能力已成功应用于高级挑战,如鸟瞰图(BEV)语义分割[19]。在低级视觉任务中,Swin Transformer[20]和SwinIR[21]等架构以及频域组合[22]在图像恢复方面被证明是有效的。
为了结合两者的优势,设计了混合CNN-Transformer方法[23]、[24]、[25]。该领域的主要挑战在于多帧时间增强。虽然利用帧间相关性看似直观,但这些方法本质上计算复杂度较高,并且对精确的运动估计依赖性强。在实践中,不完美的运动补偿可能会引入新的、分散注意力的伪影,从而违背了质量提升的目标。为了解决这些问题,我们的工作重点关注更稳健和高效的帧内增强范式(见图1)。
然而,即使在单帧上下文中,也存在两个重大挑战。首先,现有方法难以同时恢复细粒度细节和保持全局结构一致性,常常导致纹理过度平滑或结构扭曲。其次,大多数模型对所有图像区域采用统一的增强策略,忽略了人类视觉系统(HVS)的原理,无法充分恢复感知上关键的区域。这与现代图像质量评估(IQA)的趋势相反,后者开发了复杂的模型,使用因果表示学习[26]、规则化梯度提升网络[27]以及在噪声主观数据上的稳健训练[28]等技术来更好地符合人类判断。
为了克服这些特定限制,本文提出了多尺度变换器和频域-空间融合网络(MSTF-Net),这是一种专为帧内视频质量提升设计的创新框架。
主要贡献总结如下:
(1) 一种高效的傅里叶空间融合架构,通过整合全局频域信息和局部空间特征,协同优化细节恢复和全局一致性。
(2) 一个多尺度残差学习模块,通过级联残差块在不同尺度上细化压缩伪影特征,提高了模型对不同空间频率下出现的复杂失真模式的泛化能力。
(3) 一种基于感知的优化策略,将残差可察觉差异(Residual Just Noticeable Difference)理论纳入损失函数,使模型能够自适应地关注视觉敏感区域,确保输出与人类主观感知一致。
方法概述
提出的方法
本研究提出了多尺度变换器和频域-空间融合网络(MSTF-Net),专门用于通用视频编码(VVC)标准解码的视频的单帧质量提升。其主要目标不仅仅是创建一个轻量级网络,而是为恢复过程的每个阶段分配最合适的工具。我们利用卷积神经网络(CNNs)在局部操作(如浅层特征提取和特征融合)方面的效率,
实验设置
MSTF-Net在运行Ubuntu 22.04.5 LTS的NVIDIA Tesla V100设备上使用PyTorch框架实现。总训练周期数为150,批量大小为8。学习率设置为1e-4,以实现最佳的收敛速度和稳定性。在MSTB中,Swin Transformer的窗口大小设置为8,提取深度设置为6。
数据集
本实验在两个数据集上进行:(1) MFQE 2.0数据集[38],包含126个视频序列
结论
本研究介绍了一种创新的帧内质量提升框架MSTF-Net。该模型通过结合全局频域信息和局部空间特征来减轻压缩伪影。全面的实验评估表明,MSTF-Net在客观和主观质量方面都取得了显著提升。具体来说,编码帧内的PSNR提高了1.12 dB,SSIM
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:尚秀武报告获得了上海市自然科学基金会的财务支持;尚秀武还报告获得了浙江省科技部的财务支持。如果还有其他作者,他们声明没有已知的可能会影响实验结果的财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号