DPVOC:双提示学习型可变比特率全向图像压缩技术

《IEEE Transactions on Consumer Electronics》:DPVOC: Dual-Prompt for Learned Variable Bitrate Omnidirectional Image Compression

【字体: 时间:2026年06月09日 来源:IEEE Transactions on Consumer Electronics 10.9

编辑推荐:

   摘要:随着虚拟现实(VR)头戴设备、全景相机和超高清显示器等消费电子产品的广泛采用,全方向(360°)图像在提供沉浸式用户体验方面变得越来越重要。然而,这些图像的高分辨率和大数据量对带宽有限且资源受限的消费电子产品构成了重大挑战。为了解决这些问题,我们基于一种先进的并行双分支混

  

摘要:

随着虚拟现实(VR)头戴设备、全景相机和超高清显示器等消费电子产品的广泛采用,全方向(360°)图像在提供沉浸式用户体验方面变得越来越重要。然而,这些图像的高分辨率和大数据量对带宽有限且资源受限的消费电子产品构成了重大挑战。为了解决这些问题,我们基于一种先进的并行双分支混合架构(TCM),该架构结合了卷积神经网络(CNN)和Swin Transformer,提出了一种双提示学习型可变比特率全方向图像压缩框架,称为DPVOC。该框架利用失真图(Dmaps)和质量图(Qmaps)作为双提示,以实现区域自适应的比特分配和高效的可变比特率压缩。具体来说,在训练过程中,为了减轻处理整个ERP图像的计算负担,我们将ERP图像随机裁剪成小块作为网络的输入。考虑到ERP图像不同区域的失真冗余程度不同,我们引入了相应的Dmap小块来记录局部失真水平。在CNN分支中,均匀的Qmap小块与Dmap小块进行逐元素相乘,以调节CNN的特征。在Swin Transformer分支中,均匀的Qmap小块被用作注意力机制中的提示,以指导特征嵌入,从而适应比特率的变化。此外,Dmap小块还被引入到Swin Transformer的前馈网络(FFN)中,以抑制冗余信息。通过双分支结构将Qmaps和Dmaps的细粒度和对称提示结合到编码器和解码器中,我们的网络能够有效适应不同的比特率需求。在推理过程中,使用完整的Qmaps和Dmaps作为输入,其比特率开销可以忽略不计。实验结果表明……

引言

最近,VR头戴设备、全景相机和8K电视等消费电子产品的普及,对高效处理全方向(360°)图像和视频的需求日益增长。这些沉浸式媒体格式对于提升消费级设备的用户体验至关重要。然而,全方向图像通常具有极高的分辨率,导致存储和传输需求巨大。由于消费设备的网络带宽、存储和计算能力有限,因此需要高效且自适应的压缩方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号