DP-CNN:一种用于视频编码(VVC)帧内编码的深度与分区卷积神经网络

《IEEE Transactions on Consumer Electronics》:DP-CNN: Depth and Partition Convolutional Neural Network for VVC Intra Coding

【字体: 时间:2025年12月22日 来源:IEEE Transactions on Consumer Electronics 10.9

编辑推荐:

  本文提出两阶段深度与分区卷积神经网络(DP-CNN)用于VVC intra编码,通过D-CNN预测64×64块深度并提前终止率失真优化(RDO),再利用P-CNN提取32×32CU及其子CU的边界特征以预测分区类型,实现编码复杂度降低38.86%-59.69%的同时保持码率增量0.47%-1.50%。

  

摘要:

下一代多功能视频编码(VVC)引入的多类型树(MTT)块划分技术显著提升了速率失真(RD)性能。然而,复杂的递归搜索过程显著增加了VVC的计算复杂度。为了解决这个问题,以往的快速帧内编码方法试图通过预测编码单元(CU)的划分类型来加快编码过程。但这些方法耗时较长,且很少有方法能够直接预测编码深度以降低复杂度。因此,在本文中,我们提出了一种两阶段的深度与划分卷积神经网络(DP-CNN)用于VVC。该算法能够高效预测具有嵌套多类型树(QTMT)结构的四叉树(Quad Tree)及其编码深度,并在失真较低的条件下有效减少不必要的划分操作。首先,设计了一个深度卷积神经网络(D-CNN)和深度后处理算法来预测64×块的大小,从而促进速率失真优化(RDO)过程的提前终止。接着,我们使用划分卷积神经网络(P-CNN)和划分决策算法,在单次推理过程中提取4×块的特征,用于计算32×编码单元(CU)及其子单元的划分信息。通过上述方法的协同集成,实现了编码性能与复杂度的平衡。同时,CNN推理过程得到了优化,以消除不必要的延迟,从而最小化额外的时间开销。通过 comprehensive 实验验证了所提出的DP-CNN的有效性。实验结果表明,该方法将VVC编码时间减少了约38.86%~59.69%,同时Bj?ntegaard Delta比特率仅增加了0.47%~1.50%,优于现有的最先进方法。

引言

随着视频采集、通信和显示技术的快速发展,用户在教育、娱乐、医疗服务和文化遗产保护等领域越来越依赖超高清和360度视频应用。其中一个关键挑战是传输和存储视频应用产生的大量数据。逐渐地,高效视频编码(HEVC)标准的压缩性能已无法满足不断发展的视频应用需求。为了解决这一问题,ITU-T视频编码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)于2020年推出了多功能视频编码(VVC)标准。VVC包含了诸如扩展的编码单元(CTU)、具有嵌套多类型树(QTMT)结构的四叉树、自适应滤波以及仿射运动补偿预测等先进技术。与HEVC相比,VVC在保持相同峰值信噪比(PSNR)的情况下可以将比特率降低50% [1]。然而,VVC的计算复杂度显著增加。具体而言,在全帧内(All-Intra,AI)配置下,VVC的平均复杂度是HEVC的18倍 [2]。因此,设计一种适用于VVC的帧内编码算法以降低复杂度并保持视频编码效率至关重要。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号