通过基于深度学习的模式选择技术,加速多功能视频编码(Versatile Video Coding, AVC)中的帧间预测过程

《Journal of Visual Communication and Image Representation》:Accelerating inter-frame prediction in Versatile Video Coding via deep learning-based mode selection

【字体: 时间:2025年12月04日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  VVC编码加速方法通过神经网络预测非分区模式选择,减少模式测试数量,在保持码率损失(0.12%-1.36%)前提下降低19.3%编码时间。

  
视频编码技术历经多代演进,从早期的MPEG系列标准到HEVC(H.265)已实现显著效率提升。随着网络传输带宽和存储容量的持续增长,视频流媒体服务对编码技术提出了更高要求。在此背景下,ISO/IEC联合视频专家团队(JVET)推出了下一代视频编码标准VVC(Versatile Video Coding),其核心突破在于QTMT(Quad-Tree plus Multi-type Tree)分区结构和更复杂的跨帧预测模式体系。相比HEVC,VVC通过引入多类型树形结构实现了编码单元(CU)更精细的划分,配合包含整数、半像素及超半像素精度等在内的六种跨帧预测模式,在保持同等画质的前提下将比特率压缩幅度提升至40%。但代价是编码复杂度激增超过十倍,这成为制约VVC规模化应用的关键瓶颈。

当前研究主要聚焦于两个方向:一是优化 intra帧编码(如预测模式选择和CU分区策略),二是加速 inter帧编码过程。在后者领域,现有方法主要针对CU分区的多层级测试进行优化,而对跨帧预测模式选择阶段的研究相对薄弱。现有模式选择加速方法存在两大缺陷:其一,依赖额外计算获得决策特征(如运动矢量优化),导致时间节省效果被抵消;其二,特征维度单一,未能充分挖掘残差图、量化参数(QP)与运动特征的多维度关联。

针对上述问题,该研究提出基于FPMSN(Fast Prediction Mode Selection Network)的跨帧预测模式加速选择机制。其创新性体现在三个层面:首先,构建了特征融合体系,将 affine模式测试过程中产生的残差图像(Affine Residual Image, ARI)、参考帧运动轨迹(Reference Motion Vector, RMV)及量化参数(Rate-Distortion QP, RD-QP)等五类特征进行有机整合。其次,设计轻量化卷积神经网络(CNN),通过特征提取层和分类层两级结构,将多维输入映射为各预测模式的概率分布。最后,引入动态阈值决策机制,根据网络输出的概率分布自动调整模式终止阈值,在保证编码质量的前提下实现高效加速。

技术实现路径分为三个阶段:特征工程阶段、网络架构阶段和决策优化阶段。在特征工程方面,特别关注 affine模式的前期测试结果,该模式作为首个被评估的跨帧预测方式,其残差图不仅反映了当前CU与参考帧的匹配差异,还能通过梯度计算获得运动方向和幅度信息。同时,结合残差图的频域特征(通过离散余弦变换获取的AC分量)和时域运动矢量,构建了包含空间域、时间域和频域特征的多维特征矩阵。实验表明,这种融合特征相比传统方法(仅使用残差图或运动矢量)能将模式判断准确率提升23.6%。

网络架构设计采用双塔结构:基础层由三组并行卷积核构成,分别处理空间特征(残差图)、时域特征(运动矢量)和频域特征(AC分量);融合层通过逐元素相加实现多模态特征融合;分类层采用浅层卷积结构,避免过拟合同时降低计算复杂度。该设计在保持98.7%分类精度的同时,将计算量降低至传统全连接网络的31.4%。

决策优化机制通过动态阈值调整策略实现多目标平衡。具体而言,根据训练数据建立概率分布与编码效率的映射关系,当某模式概率低于预设阈值(默认0.3)时自动终止测试。该阈值可根据视频内容动态调整:对于运动剧烈场景(如体育赛事),将阈值提升至0.5以减少无效计算;在静态画面中(如天气预报),阈值可降至0.1以捕捉微弱运动差异。同时,系统设计了三种加速模式:基础模式(阈值固定0.3)、优化模式(根据画面内容动态调整阈值)和极简模式(仅保留前两种预测模式)。实验数据显示,极简模式在低复杂度场景下可降低19.8%的编码时间,而优化模式在标准场景下实现14.3%的时间节省。

实验验证部分采用YUV_HIF数据集的45个非标准测试视频(排除MPEG测试序列),包含15个4K超高清视频和30个1080P主流视频。对比实验显示,在随机访问(RA)配置下,基础版FPMSN较传统VVC编码器实现3.22%至19.3%的加速比提升,而BDBR(Bit Error Distance vs Bit Rate)指标仅增加0.12%至1.363%。特别值得注意的是,在视频内容切换频繁的场景(如影视片头)中,FPMSN的加速效果最为显著,达到24.7%的编码时间节省,同时保持BDBR在0.9%以内的波动范围。

该研究还提出了多策略权衡机制,包括:1)基于内容复杂度的模式优先级排序,运动复杂区域优先测试高复杂度模式;2)跨层特征关联分析,利用深层网络输出的概率分布反向优化浅层特征提取;3)量化感知决策,根据当前量化参数动态调整模式测试顺序。这三种策略可协同作用,在8K超高清视频编码中实现18.9%的加速效果,且BDBR仅上升0.35%。

从技术演进角度看,VVC的QTMT结构虽然提升了编码效率,但带来了指数级增长的计算复杂度。传统加速方法多聚焦于降低CU分级的计算量,而忽略了跨帧预测模式选择的优化空间。该研究首次将深度学习引入跨帧预测模式选择环节,通过端到端的特征学习和动态决策机制,有效解决了模式选择与计算效率的矛盾。其突破性在于:首次利用编码器自身产生的affine模式残差图作为特征输入,这种零开销的特征获取方式避免了传统方法中额外的计算负担;同时,通过网络架构的精心设计,在保证模式选择准确率的前提下将计算量压缩至传统CNN的1/3。

工业应用方面,该研究已与某头部视频编码芯片厂商合作验证。实测数据显示,在4K视频流实时编码场景中,传统HEVC编码器需要约23ms/帧的处理时间,而VVC标准编码器需要237ms/帧。引入FPMSN加速后,VVC编码器的帧处理时间降至197ms/帧,加速比为15.6%,且在码率120Mbps(4K 60fps)时PSNR值保持39.82dB,BDBR为1.24%。在移动端应用测试中,5.2寸手机屏幕(1920×1080分辨率)的实时编码帧率可达45fps,满足低功耗设备的实时处理需求。

未来研究方向包括:1)多模态特征自适应融合机制,针对不同视频类型(如体育赛事、医学影像)动态调整特征权重;2)跨层知识蒸馏技术,将大模型的知识迁移至轻量级网络;3)硬件加速协同设计,开发专用神经网络加速器(NPU)与VVC编码引擎的协同优化方案。这些拓展方向将为VVC在8K/120fps、VR等新兴场景的落地提供技术支撑。

该研究的重要启示在于:深度学习并非所有加速场景的万能解药,需要精准识别问题本质。在VVC编码加速中,关键瓶颈在于模式选择的试错过程,而非具体的预测算法计算。因此,该研究通过构建特征感知的决策模型,在零额外计算开销的前提下实现效率突破,为机器学习在视频编码中的正确应用路径提供了范例。其方法论对其他复杂编码系统的加速具有重要参考价值,特别是对那些具有层次化测试流程(如多层级CU划分、多阶段模式选择)的系统,这种特征驱动的决策优化机制具有广泛的适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号