基于双重感知意识的盲人图像质量评估方法:结合语义失真分析与动态全局-局部优化技术
《Displays》:Dual perception-aware blind image quality assessment with semantic-distortion integration and dynamic global–local refinement
【字体:
大
中
小
】
时间:2026年02月10日
来源:Displays 3.4
编辑推荐:
双感知模型融合语义超像素相似性及失真纹理特征,通过跨注意力机制动态互调特征,结合Transformer与自适应滤波残差块实现全局-局部感知特征提取,在多个合成与真实数据集上验证其优于现有方法。
云亮|肖宇婷|周志涵|王洪宇|张家斌|李静|徐勇|帕特里克·勒卡莱
中国华南农业大学数学与信息学院
摘要
深度神经网络在盲图像质量评估方面取得了显著进展。然而,由于图像内容的广泛变化以及不同类型失真的复杂相互作用,准确模拟人类视觉感知仍然具有挑战性。现有方法依赖于与内容无关或固定的感受野方法,难以捕捉连接语义区域和失真感知的自适应感知特征。为了解决这些限制,我们提出了双感知感知模型,这是一个两阶段框架,整合了语义感知和失真感知表示,然后探索动态的全局-局部特征提取。首先,我们的方法利用超像素相似性指标作为语义感知表示,捕获感知上连贯的区域,从而实现超越传统基于网格的方法的内容自适应特征提取。然后,交叉注意力机制促进了语义重要性和失真敏感性之间的相互调节,使模型能够关注感知上关键的区域,同时保持对失真的感知。其次,我们设计了一个自适应的并行特征提取单元,结合了视觉变换器块和增强的自适应滤波残差块,实现了适应图像特定特征的全局-局部特征表示,随后使用加权双路径回归器进行内容定制的质量预测。在包含合成和真实失真的基准数据集上的广泛实验表明,与最先进的方法相比,我们的方法表现更优,全面的消融研究验证了每个提出组件的有效性。
引言
图像质量评估(IQA)是各种视觉信息处理应用的基础,包括图像采集、传输、压缩、恢复和增强。随着多媒体内容和视觉技术的迅速普及,准确评估图像质量变得越来越重要。在IQA方法中,无参考IQA(NR-IQA),也称为盲IQA(BIQA),因其无需访问原始参考即可评估图像质量而具有价值,适用于现实世界场景。在过去的十年中,BIQA方法已经从传统的手工统计方法(如BRISQUE [1] 和NIQE [2],这些方法依赖于自然场景统计)转变为利用深度学习技术的复杂数据驱动框架,从而显著提高了准确性和泛化能力。
深度神经网络通过强大的特征提取和表示能力大幅提升了BIQA的性能。最近的方法,如HyperIQA [3] 和TReS [4],通常采用结合卷积神经网络(CNN)和Transformer架构的混合框架来捕获层次特征,并经常使用迁移学习来应对标记质量数据的稀缺问题。尽管取得了这些令人印象深刻的进展,但它们通常以松散集成的方式处理语义和失真特征,没有进行领域自适应融合,因此无法充分利用对稳健质量预测至关重要的失真特定线索。
现有方法通常通过常规的感受野提取均匀的全局或局部特征,从而破坏了不规则分布的原始感知模式,并忽略了内容特定和失真特定的变化 [5]、[6]、[7]。这些限制导致对多种失真的适应性不足,同时对感知上显著的退化敏感度降低。此外,大多数当前方法仅依赖于CNN或Transformer架构,忽略了利用它们的互补优势来改进质量评估的潜力 [8]、[9]、[10]、[11]、[12]。
为了解决这些限制,我们提出了一种新颖的架构,该架构通过动态内容感知引导的并行提取单元,自适应地整合了来自超像素的语义感知特征和来自纹理表示的失真感知特征。这种设计将Transformer的全局上下文建模能力与增强的自适应滤波卷积操作提供的细粒度局部感知相结合。在本文中,我们通过以下三个关键改进推进了盲IQA:
探索用于语义感知特征提取的超像素处理: 与使用固定或常规感受野进行均匀特征提取的传统方法不同,我们通过一种新颖的方法显式地建模了依赖于语义的感知重要性,该方法利用超像素捕获具有不规则分割的连贯内容结构。超像素根据颜色、纹理和空间关系将图像分割成感知上连贯的区域,从而自然适应现实世界场景的自然边界和语义结构 [13]。与高级语义分割网络 [14] 相比,基于超像素的低级分组对失真更具鲁棒性,并保持稳定的局部边界,这更符合人类在退化图像背景下的感知偏好。与使用固定感受野的传统CNN内核不同,例如,后者在用常规矩形感受野进行卷积时倾向于分割语义信息,超像素保持了有意义的视觉单元的完整性,使我们的模型能够以更符合人类感知机制的方式处理图像 [15]、[16]、[17]。例如,在自然场景中,超像素有效地划分出天空、树木或人脸等不同对象,如图1所示。通过可视化分割结果以及所有超像素相对于第一个超像素的相似性关系,我们可以观察到不同语义区域在各种失真和内容下的关系。构建这样的超像素相似性矩阵有助于编码感知相关区域的全局结构,而不仅仅是它们的孤立特征,并支持在未知失真下对内容关系的整体理解。在本文中,我们建立了全局超像素之间的关系,并捕捉了不同语义区域的感知敏感性,以实现有效的BIQA。
将语义-失真特征与图像特征集成以实现感知感知表示: 虽然基于超像素的相似性特征在区域层面有效地表征了语义结构,但它们无法完全捕捉对准确IQA至关重要的微妙局部失真细节。我们通过结合基于纹理的失真特征 [18]、[19] 来解决这个问题,这些特征明确检测模糊、压缩伪影和噪声模式,因为深度纹理表示对影响人类感知的细粒度局部失真特别敏感。我们的级联架构通过一种新颖的感知感知交叉注意力融合机制,将这些互补的语义和失真感知特征与失真图像的多尺度ViT特征 [20] 结合起来。这种双向信息交换动态调节了跨领域的特征激活,使语义线索突出显示失真敏感区域,同时失真模式细化了语义区域的焦点,从而实现了与人类视觉评估过程更一致的整体表示。
提出用于全局-局部特征提取的动态并行特征提取单元: 尽管ViT架构在捕获全局上下文依赖性方面表现出强大的能力,但由于其基于补丁的嵌入和全局自注意力机制 [21]、[22]、[23],它在检测细粒度局部失真模式方面通常存在局限性。为了解决这个问题,我们提出了一种混合架构,将ViT块与增强的自适应滤波残差块结合起来。这些自适应滤波残差块结合了响应图像依赖的局部结构的自适应滤波,与传统的卷积操作不同,后者在训练后对所有空间位置和图像保持固定。这种动态适应性对于IQA至关重要,因为它使模型能够适应每张图像的特定特征。通过将ViT的全局建模能力与这些自适应的详细表示相结合,我们的方法实现了全面且感知对齐的特征提取,有效覆盖了全局和局部尺度。
基于上述三种设计,我们提出了一个双感知感知模型(DPAM),该模型采用两阶段框架:首先,通过交叉注意力机制提取和融合基于超像素的语义特征和基于纹理的失真特征,然后通过并行Transformer和自适应滤波卷积路径对这些表示进行细化,最后进行质量回归。最后,一个加权双路径回归器生成针对内容变化的自适应质量和权重向量。我们的贡献有四个方面:
- (1)
我们引入了超像素相似性指标作为BIQA的强大语义感知表示。结合失真感知特征提取,我们实现了有效的双感知感知建模。
- (2)
我们开发并研究了一种交叉注意力机制,用于整合内容和失真特征,实现感知重要区域和失真敏感性之间的相互调节。
- (3)
我们设计了一种混合架构,结合了自适应滤波残差块和Transformer模块,以实现适应图像特定特征的综合全局-局部感知特征提取。
- (4)
我们提出了一个端到端的语义-失真感知网络用于BIQA。在包含合成和真实失真的基准数据集上的广泛实验表明,我们的方法与最先进的方法相比表现更优。
部分摘录
传统BIQA方法
传统BIQA方法倾向于使用手工制作的特征通过像素级统计分析进行质量评估 [24]、[25]、[26]。Saad等人 [27] 使用了DCT域统计,Moorthy等人 [28] 开发了一个两阶段失真分类框架,Mittal等人 [1] 利用了空间域特征。然而,这些方法强调低级统计,限制了它们在复杂失真下捕获高级语义信息的能力 [29]、[30]。
识别
提出的方法
为了有效地模拟感知感知质量评估,我们提出了双感知感知模型(DPAM),该模型整合了失真感知和语义感知表示,如图2所示。DPAM采用两阶段特征提取架构:第一阶段通过交叉注意力机制将基于超像素的语义特征与基于纹理的失真特征融合,捕获互补的感知信息。第二阶段通过并行ViT块对这些表示进行细化
实验设置
数据库 我们在七个基准数据集上评估了DPAM:四个人工失真的数据集(LIVE [67]、CSIQ [68]、TID2013 [69]、KADID-10K [70])和三个真实失真的数据集(LIVEC [71]、KonIQ-10K [72]、SPAQ [73])。人工数据集分别包含779、866、3000和10,125张图像,具有5-25种不同强度级别的失真。真实数据集包括1162张500 × 500分辨率的图像(LIVEC)、10,073张1024 × 768分辨率的图像(KonIQ-10K)以及11,125张智能手机拍摄的图像
结论和未来工作
本文提出了DPAM,这是一个新颖的盲图像质量评估框架,旨在有效处理多种失真和复杂的语义内容。所提出的架构通过先进的纹理分析和超像素分割整合了失真感知和语义感知注意力机制。通过提出的交叉注意力融合策略和动态特征增强模块,DPAM能够全面捕获潜在的失真特征,同时有效平衡
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
致谢
周志涵的工作部分得到了国家自然科学基金(项目编号62401210)、广东省自然科学基金(项目编号2025A1515011539)、广东省基础与应用基础研究基金(项目编号2023A1515110646)、广州市基础与应用基础研究项目(项目编号2025A04J4502)以及广东省科学技术青年人才培训计划的支持
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号