多层跨模态提示融合:提升无参考图像质量评估性能的创新之路

【字体: 时间:2025年05月08日 来源:Displays 3.7

编辑推荐:

  在图像质量评估(IQA)领域,无参考图像质量评估(NR-IQA)意义重大。研究人员针对现有方法在文本与视觉提示协同性不足等问题,开展多层跨模态提示融合(MCPF-IQA)的研究。结果显示该模型在多数据集表现优异,为 NR-IQA 发展提供新方向。

  在如今的数字时代,图像无处不在,从日常拍摄的照片到各种专业领域使用的图像,图像质量的优劣直接影响着人们的体验和相关工作的开展。图像质量评估(IQA)作为计算机视觉和图像处理领域的关键任务,就像是一位 “图像质检员”,负责自动评判图像的感知质量。它主要分为三类:全参考图像质量评估(FR-IQA)、无参考图像质量评估(NR-IQA)和缩减参考图像质量评估(RR-IQA) 。然而,FR-IQA 和 RR-IQA 在实际应用中常常面临困境,因为它们需要原始参考图像,可在现实场景里,这些参考图像往往难以获取。相比之下,NR-IQA 因其无需参考图像的优势,逐渐受到更多关注。
早期的 NR-IQA 方法主要依赖人工设计的特征,这些特征基于自然场景统计(NSS),无论是在空间域还是频率域提取,像梯度特征、对比度这类低层次图像统计信息。虽然这些方法在特定的图像失真类型上有一定表现,但人工设计特征不仅耗时费力,还容易出错。而且,当面对复杂多样的失真场景时,它们很难捕捉到图像中高层次的语义特征,这就导致其泛化能力有限。

随着深度学习的兴起,基于深度学习的 NR-IQA 方法开始崭露头角。它们借助大量的训练数据,能够自动学习图像的特征表示,有效捕捉复杂的结构和语义信息,在准确性和泛化能力上都有显著提升。但新的问题又出现了,目前 IQA 数据集规模有限,用越来越复杂的深度学习网络去训练可靠的 IQA 模型变得困难重重。这不仅会降低模型性能,还会削弱其泛化能力,限制了 IQA 在实际场景中的应用。此外,这些方法大多只处理单模态输入,仅仅依赖图像,无法评估文本提示和生成图像之间的匹配程度。

此时,对比语言 - 图像预训练(CLIP)模型的出现带来了新的希望。CLIP 模型通过大规模的图像 - 文本联合训练,能够从多模态数据中学习丰富的表示,在图像语义理解和上下文关联方面表现出色,具有很强的跨任务泛化能力。近年来,CLIP 模型被应用到自然图像质量评估中,展现出了卓越的零样本性能和潜力。比如 CLIP-IQA 引入了带有质量感知提示的零样本 IQA,利用 “坏照片” 或 “好照片” 这样的反义词对来引导质量评估,证明了 CLIP 模型无需特定任务微调就能直接支持视觉质量评估。

然而,CLIP 模型毕竟是通用模型,对于 IQA 这类特定任务来说,它缺乏足够精细的理解和区分能力,导致评估准确性有所欠缺。虽然 Prompt 学习为图像质量评估提供了新途径,像 CLIP-IQA?引入 CoOp 来学习合适的提示对,但现有方法主要依赖单模态提示学习,只调整 CLIP 的文本分支,忽略了视觉特征带来的重要信息,文本和视觉提示之间缺乏协同作用,限制了 IQA 任务性能的进一步提升。

与此同时,随着人工智能的飞速发展,AI 生成图像(AGIs)、AI 生成内容(IAGC)和用户生成内容(UGC)越来越普遍。传统的 IQA 方法主要是针对自然场景图像设计的,在处理 AI 生成图像时,很难有效提取和识别其中不自然的细节和生成痕迹,在捕捉复杂语义特征方面存在局限,导致质量评估不准确。在这样的背景下,为了解决上述一系列问题,来自国内的研究人员开展了一项关于多层跨模态提示融合用于无参考图像质量评估(MCPF-IQA)的研究 。这项研究成果发表在《Displays》上,为图像质量评估领域带来了新的突破。

研究人员为开展此项研究,运用了多种关键技术方法。首先,对预训练的 CLIP 模型进行调整,在文本编码器和图像编码器中都融入多层提示学习机制。其次,设计了跨模态提示融合模块,增强模型在不同数据集上的性能。此外,引入了更细致的质量类别标签,以解决 CLIP-IQA 中存在的模糊性问题。研究中使用了合成失真自然 IQA(SDN-IQA)、真实失真自然 IQA(ADN-IQA)和 AI 生成 IQA(AIG-IQA)三类数据集。

研究结果


  1. 多层提示学习的效果:通过在 CLIP 模型的文本和视觉分支中引入多层提示学习,让模型在更深的网络层中捕捉更丰富的语义信息,提升了模型对视觉特征和图像质量的理解能力。这一设计使得模型在处理不同类型图像时,能够更好地挖掘图像中的关键信息,为准确评估图像质量奠定了基础。
  2. 跨模态提示融合模块的作用:跨模态提示融合模块将文本和视觉提示深度融合,就像在文本和视觉之间搭建了一座桥梁,促进了两种模态之间的协同交互,实现了梯度在两者之间的传播。这种融合方式显著提高了图像质量评估的准确性,让模型在面对复杂的图像场景时,能够综合考虑文本和视觉信息,做出更合理的判断。
  3. 多质量类别标签的优势:研究人员设计的五个辅助质量相关类别标签,为描述图像质量提供了更精确的方式,有效减少了 IQA 中固有的语言模糊性。这使得模型在评估图像质量时,能够更细致地划分图像质量等级,提高了评估结果的可靠性。
  4. 模型在不同数据集上的性能:实验结果显示,MCPF-IQA 模型在自然图像数据集上表现卓越。在 LIVE 数据集上,其斯皮尔曼等级相关系数(SRCC)达到 0.988,比排名第二的方法高出 1.8%;在 LIVEC 数据集上,SRCC 为 0.913 ,比第二好的方法高出 1.0%。在 AI 生成图像数据集上,该模型同样展现出强大的性能。

研究结论和讨论


MCPF-IQA 模型基于 CLIP 架构进行创新,通过多层提示学习和跨模态提示融合等机制,有效提升了无参考图像质量评估的性能。在不同类型的数据集上,无论是自然图像还是 AI 生成图像,该模型都展现出了优异的表现。这一研究成果不仅为无参考图像质量评估领域提供了新的方法和思路,也为后续相关研究奠定了基础。

该模型的成功表明,多层提示学习能够增强模型对图像和文本的学习能力,跨模态提示融合模块能够显著提高图像质量评估的准确性,多质量类别标签则提升了质量评估任务的表达能力。这些创新点为解决现有 IQA 方法存在的问题提供了有效的解决方案,推动了图像质量评估技术的发展,在实际应用中具有重要的意义,有望在图像编辑、图像检索、多媒体内容评估等多个领域发挥重要作用,帮助人们更高效地处理和评估图像。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号