随着数字媒体技术的快速发展,视觉作品的创建、保存和分享在数字领域得到了蓬勃发展,人们对图像美学质量的期望也越来越高。在这种背景下,开发能够准确自动评估图像美学的技术变得至关重要。因此,一个基本问题出现了:我们如何生成细粒度、可控制属性的美学标注,以忠实反映人类的美学判断?(见图1)。
图像和文本是传递信息的重要渠道。作为这些信息的接收者,人类不仅能够直接感知图像中的丰富语义内容,还能感受到它们所蕴含的情感和美学本质[1]。然而,仅依赖图像本身往往不足以全面捕捉其美学维度。通过结合图像相关标注的分析,可以更深入、更细致地理解图像的美学价值。带有美学洞察的标注在解释图像的艺术价值方面提供了宝贵的支持。在在线艺术社区中,伴随图像的标注反映了个人的美学判断,表达了构图和技术等品质。图像美学标注的研究旨在利用计算机视觉和自然语言处理来自动生成这种富有表现力、注重质量的描述。
与主要强调客观内容描述的传统图像标注任务[2]不同,图像美学多属性标注[3][4]基于美学心理学的多属性整合模型[5]。这一理论框架认为,人类的美学判断并非作为一个整体的印象出现,而是源于多个可分离的感知属性的评估和综合。与此认知观点一致,我们的任务优先生成涵盖细粒度美学维度(包括颜色和光线、构图、景深、焦点和主题)的结构化标注。这种方法不仅提供了更丰富、更有信息的反馈,还紧密反映了人类形成和表达美学评价的认知机制,因此比通用标注或单一评分评估具有更大的解释深度和实际价值。这些美学评价从多种角度反映了细致的美学特征,展示了对美学质量的更复杂和深刻的理解,涵盖了广泛的美学语义。图像美学多属性标注的方法与美学心理学中的原则紧密一致,这些原则表明个体基于一系列不同的美学属性形成美学判断。
尽管在分类、评分和分配任务中取得了显著的美学质量评估进展,但美学信息的表达仍然不完整。越来越需要生成包含整体美学印象及其细粒度属性的全面美学标注,从而增强语义深度和可解释性。在美学标注生成领域,现有方法在提高生成标注的多样性和语义精确性方面仍面临挑战。正如本研究的实验部分所示(见表3),最先进的图像标注模型BLIP[6]在富含美学属性的PCCD数据集上的ROUGE-N得分仅为0.137。这一发现初步表明,通用视觉-语言模型在理解和表达细粒度美学概念方面面临重大挑战,这凸显了开发专门针对美学属性建模的新框架的必要性。虽然CLIP在各种计算机视觉任务中表现出色,但直接在CLIP上训练美学标注生成模型难以有效捕捉细致的美学属性。这些限制主要源于CLIP的预训练范式与美学任务的内在要求之间的根本不匹配。首先,从语义角度来看,CLIP的训练数据强调客观内容描述而非主观评估,导致学习到的视觉-语言关联无法编码美学细微差别和专业评估语言。其次,从结构角度来看,CLIP的纠缠表示空间缺乏对构图和光线等美学属性的明确分离和锚定,从而限制了其生成精确属性描述的能力。因此,直接将CLIP或基于CLIP的通用标注模型应用于美学生成通常会导致美学信号稀释和属性控制无效。我们的初步分析显示(见表8),直接使用原始CLIP权重初始化模型在美学图像标注任务上的表现不尽如人意。这表明,尽管CLIP具有强大的通用视觉-语言对齐能力,但其表示并未针对美学属性进行优化,限制了其支持高质量、细粒度美学描述生成的能力。这一观察结果促使我们设计了一个专门针对美学的视觉-语言预训练阶段。为了解决这些不足,本研究试图通过多阶段美学预训练注入领域特定知识,并通过属性控制机制实现结构化生成,最终生成一个真正“理解”美学的模型,并能够提供细致的美学评价。为了弥合CLIP视觉美学表示中的语义差距,本章介绍了一种基于视觉-语言预训练的图像美学多属性标注模型(IAMC-VLP)。该模型旨在自动生成与人类美学感知相呼应的美学多属性标注。
在监督学习任务中,深度学习经常面临鲁棒性不足和泛化能力差的问题。对比学习通过将正样本对拉近并将负样本对拉开,鼓励模型学习图像和文本之间的对齐特征表示,从而提高模型对视觉和语言变化的鲁棒性,并帮助模型学习跨模态泛化能力。Mokady等人[7]提出使用CLIP模型编码器来训练有效的图像标注模型。我们的研究受到文献[7][8]的启发,由于CLIP在视觉-语言多模态任务中表现优异,文献[9][10]展示了CLIP的优势[11]。然而,用于训练CLIP的图像-文本对的美学相关性较差,直接在CLIP上训练美学标注模型会导致美学信息稀释,难以有效捕捉美学属性信息。为了弥合CLIP视觉-美学表示中的这一语义差距,本研究采用了“预训练和微调”范式。通过利用预训练模型中嵌入的丰富美学和文本先验,并结合对比学习和生成学习,我们提出了一个基于视觉-语言预训练的模型来生成图像美学多属性标注。为了实现不同美学维度上的可控生成,我们的模型引入了一组美学属性控制标志。这些标志在训练和推理过程中作为明确的条件信号,使得可以精确调节生成标注应涉及的特定属性,这是实现细粒度分析的关键设计。
本研究在基于视觉-语言预训练的图像美学多属性标注方面的主要贡献如下:
(1) 本研究提出了一个用于生成图像美学多属性标注的视觉-语言预训练框架。该框架采用“预训练和微调”策略,充分利用了预训练模型中嵌入的丰富美学特征。结合GPT-2的语言生成能力,该模型能够生成高质量的美学多属性标注。
(2) 映射网络和GPT-2解码器的联合优化对于实现卓越的性能至关重要,促进了强大的跨模态对齐和高度流畅的文本生成。此外,引入美学属性控制标记可以精确调节美学多属性标注的生成。
(3) 在DPC-MAC和PCCD数据集上的性能评估表明,所提出的方法在多个指标(包括BLEU、METEOR和SPICE)上始终优于主流方法。该模型有效生成了与相应属性特征紧密对齐的美学标注。一系列定量和定性实验进一步验证了所提出框架的卓越性能。