
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于球面恰可察觉差异模型的360°视频编码优化研究
【字体: 大 中 小 】 时间:2025年06月21日 来源:Signal Processing: Image Communication 3.4
编辑推荐:
为解决360°视频高分辨率带来的传输存储挑战,研究人员创新性地提出球面恰可察觉差异(SJND)模型,通过融合区域掩蔽因子(熵分类)、纬度投影特性和视场注意力因子,实现视觉冗余精准去除。该模型在VVC编码中验证可显著降低码率(bit rates)同时保持感知质量,为沉浸式视频压缩提供新范式。
随着虚拟现实技术的爆发式发展,360°视频凭借其全景沉浸体验成为炙手可热的新媒体形式。然而,为营造逼真的临场感,这类视频需要高达8K甚至16K的超高分辨率,导致数据量呈几何级数增长——一段1分钟的8K 360°视频未经压缩可达数百GB,相当于传统2D视频的50倍。这给网络传输和存储带来巨大压力,就像试图用吸管喝光游泳池的水。更棘手的是,现有压缩技术如H.266/VVC主要针对平面视频设计,直接套用于360°视频会导致两大问题:一是忽视球面投影造成的几何畸变(如赤道区域像素拉伸),二是无视人类在头戴显示器(HMD)中仅能聚焦局部视场(FoV)的特性,造成宝贵的带宽资源被"看不见的细节"浪费。
针对这一瓶颈,福州大学的研究团队在《Signal Processing: Image Communication》发表论文,首次将经典的恰可察觉差异(JND)模型升级为球面恰可察觉差异(SJND)。研究团队创新性地发现,360°视频的感知冗余去除需要三重关键机制:基于信息熵的区域掩蔽分级(将图像块按纹理复杂度分为6类)、纬度投影补偿模型(通过多项式拟合量化像素形变程度)、以及动态视场注意力权重(中心视野权重是边缘区域的3.2倍)。通过这三者的有机融合,SJND模型能精准预测人类对球面视频失真的敏感阈值。
关键技术包括:1) 采用熵值阈值法将图像块划分为平滑/纹理/边缘区域;2) 建立纬度投影失真函数δ(φ)=1.34φ2-0.67φ+1.03;3) 基于眼动实验数据构建FoV高斯衰减权重;4) 将SJND嵌入VVC编码器的量化参数(QP)调整模块。
Related work
梳理现有JND模型发展脉络,指出像素级模型(考虑亮度适应LA和对比掩蔽)和子带模型(加入对比敏感函数CSF)均未解决球面视频特性,凸显研究空白。
The proposed SJND model
通过三阶段建模:区域分类模块将8×8块熵值划分为(0,3]、(3,5]、(5,7]、(7,9]、(9,11]、(11,∞)六个等级,对应不同掩蔽强度;纬度因子δ(φ)量化像素形变,赤道(φ=0)失真灵敏度最低;FoV权重采用σ=60°的高斯分布,中心视野权重达0.92。最终模型JNDS=JND2D×δ(φ)×ω(FoV)×M(entropy)。
Experiment result
主观测试显示SJND组平均意见分(MOS)达4.21分(5分制),显著优于传统JND的3.47分;客观指标BD-rate节省17.3%,尤其在高纹理区域节省达23.8%。
The application in video coding
在VVC中应用SJND指导QP分配,相比均匀QP方案,在同等质量下节省14.7%码率,且91%受试者未察觉画质差异。
Conclusion
该研究突破性地将感知编码从2D拓展至球面领域,建立的SJND模型首次系统解决投影畸变、非均匀注意力分布等核心问题。实验证实其可智能分配编码资源——在用户敏感区域保留细节,在视觉盲区大胆压缩,为元宇宙、虚拟医疗等需要超高清360°视频的场景提供关键技术支撑。未来可结合深度学习进一步优化区域分类精度,推动标准落地。
生物通微信公众号
知名企业招聘