基于在线图的变换方法,用于内部预测的成像数据
《Pattern Recognition》:Online Graph Based Transforms for Intra-Predicted Imaging Data
【字体:
大
中
小
】
时间:2025年11月10日
来源:Pattern Recognition 7.6
编辑推荐:
视频压缩中图基变换在线优化框架,通过浅层全连接神经网络实时预测残差块图拉普拉斯矩阵,无需离线训练或压缩流中额外信息传输,在BD-PSNR和BD-Rate指标上优于传统DCT/DST及离线学习方案,实现动态适应场景复杂性的高效压缩。
近年来,图像和视频压缩技术在多媒体通信和存储领域发挥着重要作用。为了提高压缩效率,研究者们不断探索更有效的信号表示方法,其中正交变换(Orthogonal Transforms)是关键的组成部分。这些变换通过去除信号中的相关性,使压缩过程更加高效。传统的压缩技术中,离散余弦变换(DCT)和离散正弦变换(DST)被广泛采用,因为它们能够有效地将信号能量集中到少数重要的变换系数中。然而,这些变换是固定的、非自适应的,无法很好地适应不同场景下的信号特性变化,从而限制了其在复杂信号处理中的应用。
随着研究的深入,图基变换(Graph-Based Transform, GBT)逐渐被引入,作为一种更具适应性的变换方法。与传统变换不同,GBT利用图结构来描述信号,使得其能够根据信号的特性进行调整。这种自适应性在块级预测变换编码(Block-Based Predictive Transform Coding, PTC)中尤为重要,因为PTC的核心思想是通过预测已处理的块来减少空间冗余,从而提高压缩性能。然而,GBT在实际应用中也面临一些挑战。首先,为了实现GBT的压缩和重建,需要在压缩比特流中传输额外的图信息,这会增加编码的开销,并可能影响解码器的同步效率。其次,GBT通常依赖于离线训练过程,而训练数据的质量和完整性对最终性能有重要影响。如果训练数据不能准确反映实际处理的数据特性,那么训练得到的模型可能无法适应新的输入,从而影响压缩效果。
为了解决上述问题,本文提出了一种全新的在线学习框架——GBT-ONL(Graph-Based Transform Online Learning)。该框架基于块级预测变换编码的上下文,通过在线优化的方式学习图基变换所需的图拉普拉斯矩阵。具体来说,GBT-ONL使用一个浅层的全连接神经网络(Fully Connected Neural Network, FC-NN)来预测每个残差块的图拉普拉斯矩阵。由于该优化过程仅依赖于编码过程中可用的信息,因此不需要在压缩比特流中传输额外的图信息,从而降低了编码开销。此外,该框架无需依赖任何预先训练的模型,能够在实时处理数据的同时完成学习过程,使得模型能够动态适应视频帧中的复杂模式变化。
在实验方面,本文使用了多种标准视频序列进行测试,这些序列涵盖了不同的场景特征和内容类型,包括自然视频、屏幕内容等。通过比较GBT-ONL与其他传统变换(如DCT)和现有可学习变换(如基于深度学习的变换)在能量压缩、重建误差和压缩效率方面的表现,结果表明GBT-ONL在多个指标上均优于其他方法。例如,在BD-PSNR(Blind Debiasing Peak Signal-to-Noise Ratio)和BD-Rate(Blind Debiasing Rate)指标下,GBT-ONL能够更有效地保留信号能量,并减少压缩后的重建误差。这表明,通过在线学习的方式,能够显著提升压缩性能,同时避免传统方法中因传输额外信息而带来的开销。
此外,GBT-ONL框架的一个重要优势是其无需依赖大规模、精心整理的训练数据。传统方法中,为了训练可学习变换模型,通常需要大量的数据样本,并且这些样本必须具有代表性,才能保证模型在实际应用中的性能。然而,GBT-ONL通过在线优化的方式,能够在处理每个残差块时动态调整模型参数,从而适应不同的信号特性。这种灵活性使得该框架能够广泛应用于各种类型的视频内容,包括医学影像和遥感数据等,而不会受到训练数据的限制。
在实际应用中,视频压缩系统通常采用块级预测变换编码技术,该技术通过将视频帧划分为多个非重叠的块,并按照特定顺序(如栅格扫描顺序)逐个处理这些块。每个块的预测基于之前处理的块,从而减少空间冗余。在处理完每个块后,会计算残差块,并对其进行变换和量化。最后,通过熵编码将量化后的系数压缩为比特流。为了实现解码过程,压缩后的块需要在编码阶段进行重建,以便用于后续块的预测。这一过程在解码器中需要被精确复制,以确保重建的准确性。
在块级预测变换编码中,传统的预测模式包括多个方向模式(如HEVC标准中的33个角模式)和一些平滑纹理的预测模式(如DC模式和Planar模式)。而VVC标准则支持多达87种预测模式,包括更广泛的方向模式和更复杂的纹理建模方式。这些预测模式的多样性使得压缩系统能够更好地适应不同的视频内容。然而,传统的变换方法如DCT和DST在处理这些预测块时,由于无法适应不同的信号特性,因此在压缩效率和重建质量方面存在一定的局限性。
为了解决这一问题,近年来的研究者们尝试引入图基变换作为替代方案。图基变换通过构建残差块的图结构,使得其能够更有效地捕捉信号中的相关性和能量分布。然而,由于图信息需要被传输到压缩比特流中,这会增加编码的开销,并可能影响解码器的同步效率。此外,图基变换的训练过程通常需要依赖离线数据,这在某些情况下可能并不现实,尤其是在训练数据无法准确反映实际信号特性的情况下。
为了克服这些限制,本文提出的GBT-ONL框架采用了一种在线优化的方法,使得模型能够在处理每个残差块的同时进行学习和调整。这种在线优化方法能够动态适应视频帧中的复杂模式变化,如场景的复杂性、光照条件和运动变化等。同时,由于优化过程仅依赖于编码过程中可用的信息,因此不需要在压缩比特流中传输额外的图信息,从而降低了编码开销。这一特性使得GBT-ONL框架在实际应用中更加高效和灵活。
在实验设置方面,本文使用了ISO/IEC JCT1/SC29/WG11提供的标准视频序列,这些序列在常见的测试条件下和软件参考配置下被广泛使用。实验数据涵盖了多种视频内容,包括自然视频、屏幕内容等,分为六个类别:A、B、C、D、E和屏幕内容(Screen Content, SC)。这些序列在长度、场景特征和内容类型上具有多样性,能够全面评估GBT-ONL框架的性能。通过比较不同视频序列的压缩效果,可以进一步验证该框架在不同应用场景下的适应性和有效性。
在结果分析方面,本文发现,GBT-ONL框架在多个关键指标上均优于传统变换和现有可学习变换。首先,在能量压缩方面,GBT-ONL能够更有效地将信号能量集中到少数重要的变换系数中,从而提高压缩效率。其次,在重建误差方面,该框架能够显著降低重建后的数据与原始数据之间的差异,使得视频质量得到更好的保留。最后,在压缩效率方面,通过BD-PSNR和BD-Rate指标的评估,GBT-ONL在相同压缩率下能够提供更高的视频质量,这表明其在实际应用中具有更高的性能优势。
此外,本文提出的GBT-ONL框架还具有良好的可扩展性和适应性。由于其无需依赖离线训练过程,因此能够在处理不同的视频内容时保持较高的灵活性。这种特性使得该框架能够适应多种应用场景,包括医学影像、遥感数据等,而不会受到训练数据的限制。同时,由于优化过程仅依赖于编码过程中可用的信息,因此在解码阶段可以完全复制该过程,从而确保重建的准确性。
综上所述,本文的主要贡献在于提出了一个基于在线优化的图基变换学习框架——GBT-ONL。该框架能够在处理每个残差块的同时进行学习和调整,从而动态适应视频帧中的复杂模式变化。此外,该框架无需在压缩比特流中传输额外的图信息,降低了编码开销,提高了压缩效率。通过实验验证,GBT-ONL在多个关键指标上均优于传统方法和现有可学习方法,表明其在图像和视频压缩领域具有重要的应用前景。
未来的研究方向可能包括进一步优化GBT-ONL框架的性能,探索其在不同类型的视频内容中的适应性,以及研究如何将其与其他压缩技术相结合,以实现更高效的视频编码方案。此外,还可以考虑如何在不同的硬件平台上实现该框架,以提高其实用性和可部署性。这些研究将有助于推动图像和视频压缩技术的发展,为未来的多媒体应用提供更强大的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号