基于梯度提升树的快速自适应QTMT分割技术,用于360°视频编码中的内部分割

【字体: 时间:2025年11月08日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  360°视频ERP格式内编码中提出区域划分与梯度提升树模型优化方法,通过分析北纬、赤道和南纬区域的空间特性与复杂度差异,设计三区域自适应决策机制和阈值优化策略,在保持BD-Rate损失0.37%的同时实现编码复杂度降低50%。

  
何塞·N·菲利佩(Jose N. Filipe)|路易斯·M·N·塔沃拉(Luis M.N. Tavora)|塞尔吉奥·M·N·法里亚(Sergio M.N. Faria)|安东尼奥·纳瓦罗(Antonio Navarro)|佩德罗·A·A·阿松桑(Pedro A.A. Assuncao)
阿威罗大学(Universidade de Aveiro),3810-193,阿威罗,葡萄牙

摘要

对超高清(UHD)和360°内容的日益增长的需求推动了具有更高编码效率的先进压缩工具的开发。多功能视频编码(Versatile Video Coding,VVC)最近在编码效率上超越了之前的标准,但同时也引入了显著更高的计算复杂性。为了解决这个问题,本文提出了一种针对360°视频的的新型帧内编码方法,该方法采用等角投影(Equirectangular Projection,ERP)格式,在对编码效率影响最小的情况下降低了复杂性。研究表明,ERP图像的北部、赤道和南部区域在复杂性和空间特征上存在明显差异。本文采用基于区域的方法,为每个区域使用多个梯度提升树(Gradient Boosted Trees)模型来判断是否可以跳过某种分割类型。此外,还引入了一种自适应决策阈值方案,以优化极地区域的垂直分割。本文还提出了一种优化复杂度与比特率损失(BD-Rate)权衡参数的解决方案。实验结果表明,该方法在复杂度降低50%的同时,比特率损失仅增加了0.37%,性能优于当前最先进的方法。

引言

近年来,视频消费领域经历了巨大的增长[1]、[2]、[3]。这一演变是由对超高清(UHD)视频、4K/8K视频和全向视频内容的需求激增所推动的,这一现象为技术和基础设施带来了新的挑战和机遇[2]。事实上,随着虚拟现实(VR)流媒体、UHD VR以及提升整体用户体验(QoE)的应用的兴起,全向相关视频内容预计将成为未来主要的带宽消耗者[4]。
为应对由视频消费带来的不断增长的带宽需求,联合视频专家团队(Joint Video Experts Team,JVET)于2020年7月发布了下一代视频编码标准——多功能视频编码(Versatile Video Coding,VVC)的第一个版本[5]、[6]。这一新标准专门设计用于处理多种视频格式,如屏幕内容[7]、UHD 4K/8K视频以及全向视频[8]。此外,它的目标是在保持给定质量水平的情况下,将比特率比上一代标准高效视频编码(High Efficiency Video Coding,HEVC)[11]降低约30%至60%[9]、[10]。
然而,这种编码效率的提升是以大幅增加编码过程的计算复杂性为代价的。VVC的计算复杂性至少是HEVC的5到8倍[9]、[10]。这种复杂性限制了新型编码标准的广泛采用,从环境角度来看也是一个问题[12]、[13]。因此,开发能够在不损失编码效率的情况下利用这些新编码工具的低复杂度方法至关重要。
近期,文献中探索了几种低复杂度方法,这些方法旨在减少VVC编码时间,同时对编码效率的影响最小[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]。此外,只有少数方法针对全向视频的特性,特别是其纬度依赖性[27]、[28]。本文提出的方法正是利用了这种依赖性。因此,本文的新贡献包括以下几点:
  • 一项通过统计证明的新发现,显示全向图像中存在一致的纬度依赖性编码复杂性特征;
  • 一种快速的自适应决策方法,使用多个基于纬度的梯度提升树(Gradient Boosted Trees,GBT)模型来进行QTMT(Quaternary Tree and Multi-Type Tree)分割/不分割决策;
  • 一种根据纬度自适应的阈值方案,用于控制比特率损失与复杂性降低之间的权衡。
与现有最先进方法相比,我们提出的方案在全向视频中实现了更低的复杂度,同时保持了给定的Bj?ntgaard delta率(BD-Rate)损失。
本文的其余部分安排如下:第2节简要回顾了相关先前的工作,第3节介绍了编码复杂度与全向视频特征之间的统计关系。第4节介绍了使用GBT模型进行四叉树和多类型树(QTMT)分割/不分割决策的方法,第5节讨论了获得的结果。最后,第6节提出了结论性意见。

相关研究

相关工作

本节介绍了在快速VVC帧内预测的复杂性降低方面更具相关性的最先进方法。随后,对GBT(Gradient Boosted Trees)和随机森林(Random Forests,RFs)方法进行了简要分析,支持在本工作中优先选择前者。
视频编码器的复杂性降低方法通常根据所采用的方法分为启发式方法和基于机器学习的方法。

编码360°视频:复杂性和特征

关于编码单元(CU)的计算复杂性,已知纹理细节较少的CU(即频率较低的CU)往往会导致较低的复杂性[42]。此外,360°视频表示具有依赖于所使用特定投影方式的固有特征。由于其在地球地图制作中的简单性和广泛使用,等角投影(Equirectangular Projection)可能是最常用的投影方式[43]。它基本上将恒定纬度的圆映射到水平平面上。

提出的方法

本节描述了用于降低ERP全向视频帧内编码QTMT计算复杂性的方法。基于前一节的研究,本文提出了一个基于GBT的框架,包括:一个基线方法、一种特征选择方法以及两个进一步的改进。
基线方法通常遵循[18]中描述的策略(但有两个主要改进,以适应全向视频的特性)。

实验结果

本节介绍了第5.1节所述的实验设置,随后研究了第4节中描述的各项改进的单独贡献,以找到提供最佳比特率损失/复杂性收益权衡的组合(第5.2节)。需要注意的是,比特率损失是使用球形加权峰值信噪比(Spherical Weighted Peak Signal-to-Noise Ratio,WS-PSNR)指标计算的,因为这是通用测试条件(Common Test Conditions,CTC)[50]中定义的指标之一。

结论

本文提出了一种新算法,该算法利用15个GBT模型来降低ERP格式下360°视频帧内编码的复杂性。每个模型使用的特征是通过一种新的特征选择方案选定的,该方案结合了方差分析(ANOVA)、χ2和互信息(MI)。这些模型用于通过RDO(Run-Directed Optimization)来决定是否测试给定的CU分割(QT、BT和TT)。为了利用ERP的特性,建议考虑由纬度定义的3个不同的编码区域。

CRediT作者贡献声明

何塞·N·菲利佩(Jose N. Filipe):撰写——审稿与编辑、撰写——初稿、可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。路易斯·M·N·塔沃拉(Luis M.N. Tavora):撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、方法论、调查、形式分析、数据管理、概念化。塞尔吉奥·M·N·法里亚(Sergio M.N. Faria):撰写——审稿与编辑、撰写——初稿、可视化、验证、监督

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:何塞·N·菲利佩报告称,阿威罗电信研究所(Institute for Telecommunications Aveiro)提供了行政支持和文章发表费用。何塞·N·菲利佩还报告称,科学技术基金会(Foundation for Science and Technology)提供了财务支持。如果还有其他作者,他们声明没有已知的潜在财务利益或个人关系可能
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号