编辑推荐:
当前基于深度神经网络的图像质量评估(IQA)在对抗攻击下不可靠。研究人员开展因果感知启发的表征学习(CPRL)研究,提出因果干预和 SortMask 模块。实验表明该方法优于众多先进方法,为 IQA 提供了更可靠的模型。
随着互联网图像数据的爆炸式增长,图像质量的自动评估成为了至关重要的研究和应用领域。客观图像质量评估(IQA)方法依据原始未失真图像的可用性分为全参考(FR)、缩减参考(RR)和无参考 / 盲(NR/B)三类。其中,盲图像质量评估(BIQA)模型旨在模拟人类在没有原始图像的情况下判断测试图像感知质量的能力,是一项极具挑战性的计算视觉任务。
尽管近年来 IQA 取得了显著进展,如曹等人提出用于图像压缩的语义引导可察觉差异(JND)预测器 ,张等人强调评估用户生成视频质量时需要稳健的指标 ,朱等人引入基于跨视图一致性的无参考质量评估方法 ,高等人突出了建模意见分数分布的重要性 ,翟等人探索了用于感知评估的自由能特征 。然而,现有 BIQA 方法存在严重的信任问题。微小的感知攻击就能误导质量评估模型产生错误输出,这一漏洞影响了 IQA 的安全性和可靠性。例如,在图像中添加微小的扰动后,深度 IQA 模型的预测结果会出现显著误差,而人眼却无法察觉图像质量的变化。这是因为现有的基于深度神经网络(DNN)的 IQA 模型继承了 DNN 的脆弱性,微小的干扰在人眼视觉系统(HVS)的可察觉差异(JND)范围内不会影响感知质量,但在 DNN 的多层高维点积运算中,特征的微小变化会不断累积,导致过大的利普希茨(Lipschitz)常数,从而使模型对对抗攻击过于敏感。
为了解决这些问题,来自国内的研究人员开展了基于因果感知启发的表征学习(Causal Perception inspired Representation Learning,CPRL)构建可信 IQA 模型的研究。该研究成果发表在《Displays》上。这项研究具有重要意义,它为解决 IQA 模型在对抗攻击下的不可靠问题提供了新的思路和方法,有望推动 IQA 领域的发展,提高图像质量评估在实际应用中的可靠性和安全性。
研究人员采用了以下主要关键技术方法:
- 因果框架分析:运用因果表示学习(CRL)的理论,将图像质量评估数据的生成归因于参考图像、因果感知表征(Causal Perception Representation,CPR)和非因果感知表征(non - causal perception representation,N - CPR)三个因素。通过结构因果模型(SCM)和因果图模型,形式化地描述它们之间的关系。
- 因果干预策略:生成一系列 N - CPR 干预图像,通过最小化因果不变性损失来增强 CPR。
- SortMask 模块:提出一种可插拔的 SortMask 模块,通过阻断均值附近的小变化来降低 Lipschitz 常数,从而消除 N - CPR。
研究结果
- 因果感知表征与非因果感知表征的定义与分析:研究人员定义 N - CPRs 为混淆因素,它们虽不影响图像质量,但能与主观质量标签产生虚假关联,如局部纹理、小边缘和 JND 内的微弱阴影等特征都可能成为 N - CPR。正常 IQA 训练和测试时,N - CPR 相对稳定,模型表现良好;但在对抗场景中,攻击者可通过改变 N - CPR 改变预测的图像质量,而图像外观却无变化,这表明仅依赖统计关联的 IQA 模型存在不足。
- 因果干预提升 CPR:通过生成 N - CPR 干预图像并最小化因果不变性损失,有效提升了 CPR。这一操作打破了虚假关联,找到了影响图像质量的真正因素。
- SortMask 模块消除 N - CPR:SortMask 模块通过阻断均值附近的小变化,降低了 Lipschitz 常数,成功消除了 N - CPR。该模块具有可插拔性,可方便地应用于不同的模型架构中。
- 模型性能验证:在四个基准数据库上进行实验,对比 8 个基线模型和 5 种攻击方法。结果表明,CPRL 方法显著优于许多现有先进方法,有效提高了基线模型在对抗攻击下的鲁棒性,验证了该方法的有效性。
研究结论和讨论
本研究通过 CPRL 构建了可信的 IQA 模型,仅需在卷积层插入 SortMask 模块,并利用因果不变性损失进行优化。大量实验在流行的质量评估数据集上进行,验证了该方法能够获得可靠的 IQA 模型。CPRL 方法不仅在图像质量评估领域取得了显著成果,其可插拔的特性还为其他相关领域的研究提供了新的思路和方法,具有潜在的广泛应用前景。它打破了传统 IQA 模型在对抗攻击下的局限性,为解决 IQA 模型的信任问题提供了有力的解决方案,推动了图像质量评估技术朝着更加可靠和安全的方向发展。