编辑推荐:
针对现有可扩展框架任务间信息冗余、压缩性能不足等问题,研究人员开展分层可扩展端到端图像编解码研究。提出含语义层(机器推理)和重建层(图像重建)的框架,实验显示比 VVC 节省 86.81% 码率,重建图感知质量优,具重要意义。
在智能设备爆发的时代,视觉数据呈指数级增长,这些数据不仅要满足人类偶尔的查看需求,更重要的是服务于机器视觉分析,如智能监控、自动驾驶中的目标检测等。然而,现有的图像压缩框架在同时服务于人机视觉时,不同任务间存在信息冗余,压缩性能也有待提升。一方面,传统的可扩展框架采用单一特征提取器,难以实现机器所需的语义特征和人类所需的重建特征完全独立分离,导致重建图像质量欠佳;另一方面,部分使用多个特征提取器的方法任务扩展性有限,且不管任务需求如何都需传输所有特征,降低了框架整体效率。此外,边缘设备资源有限,如何在低码率下保证机器视觉任务的高性能,同时在需要时提供高感知质量的重建图像,成为亟待解决的问题。为应对这些挑战,国内研究人员开展了相关研究,其成果发表在《Engineering Applications of Artificial Intelligence》。
研究人员提出了一种分层可扩展的端到端图像编解码框架,该框架包含用于机器推理的语义层和用于图像重建的重建层。
研究中用到的主要关键技术方法包括:构建基于学习的压缩模型(LCM)在语义层提取语义特征,通过特征变换模块(FTM)获得与选定机器视觉后端网络匹配的变换特征,引入知识蒸馏提升机器任务性能;在重建层将重建特征与语义层的语义特征融合,以实现人眼友好的高感知质量图像重建。研究在 PASCAL VOC 检测挑战数据集上进行,使用 VOC2007 和 VOC2012 的 trainval 集(含 16551 张图像)训练模型。
实验结果
- 语义层性能:通过实验验证,语义层在极低码率下仍能实现高性能的机器视觉任务。例如,即使通道数仅为 16,在有限计算资源下,语义层仍可实现高目标检测性能,体现了模型复杂度根据应用场景调整的灵活性。
- 码率节省效果:与多功能视频编码(VVC)相比,该图像编解码在目标检测任务上最多可节省 86.81% 的码率,显著提升了压缩效率。
- 重建图像质量:重建层将重建特征与语义特征融合后,重建图像的感知质量优于最先进的图像编解码器,在感知指标上表现出色。
结论与讨论
该研究提出的分层可扩展框架,通过两个独立的特征提取器分别获取语义特征和重建特征,确保了两者的独立性和无交集性。在仅需机器视觉任务的场景中,可单独部署语义层,减少不必要的数据传输;同时,可根据实际情况在模型复杂度和任务性能间进行权衡。实验结果表明,该框架有效缓解了现有框架的信息冗余问题,提升了压缩性能,为同时满足人机视觉需求的图像压缩提供了新的解决方案。其在智能监控、自动驾驶等边缘计算场景中具有广阔的应用前景,有助于推动图像压缩与计算机视觉领域的融合发展,为相关领域的技术进步提供了重要的理论和方法支持。