细粒度的美学多属性字幕生成，结合对齐的视觉-语言表示方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：Fine-grained aesthetic multi-attribute captioning with aligned vision-language representations

【字体：大中小】 时间：2026年02月05日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　图像美学多属性描述生成方法基于视觉语言预训练，通过跨模态映射网络和属性控制标志实现细粒度描述。实验表明该方法在DPC-MAC和PCCD数据集上显著优于现有模型，BLEU、METEOR、SPICE等指标均有提升。

杨洪涛|刘叶辉|贾民正|韩璐|孔永强|金鑫|史平

北京政法学院电气与信息工程学院，中国北京

摘要

图像美学多属性标注强调细粒度的美学属性，从多种角度捕捉复杂的美学特征，反映了对美学更细致和深刻的理解，涵盖了广泛的美学语义。尽管具有潜力，但目前的美学多属性标注方法仍不够完善。本文介绍了一种基于视觉-语言预训练的新型图像美学多属性标注方法，旨在通过生成细粒度的、具有属性意识的美学描述来丰富语义深度和可解释性，以解决美学信息表达不足的问题。该方法采用“预训练和微调”范式，利用CLIP和GPT-2架构，并通过跨模态映射网络将CLIP生成的视觉特征与GPT-2嵌入空间对齐。引入美学属性控制标志可以精确调节生成的美学多属性标注。实验结果表明，我们的方法在DPC-MAC和PCCD数据集上的多个指标（包括BLEU、METEOR、SPICE等）上优于主流方法。此外，多阶段美学预训练的消融研究证实了所提出策略的有效性。该模型始终能够生成美学上连贯且与属性一致的标注，显示出其在高级美学分析方面的潜力。

引言

随着数字媒体技术的快速发展，视觉作品的创建、保存和分享在数字领域得到了蓬勃发展，人们对图像美学质量的期望也越来越高。在这种背景下，开发能够准确自动评估图像美学的技术变得至关重要。因此，一个基本问题出现了：我们如何生成细粒度、可控制属性的美学标注，以忠实反映人类的美学判断？（见图1）。

图像和文本是传递信息的重要渠道。作为这些信息的接收者，人类不仅能够直接感知图像中的丰富语义内容，还能感受到它们所蕴含的情感和美学本质[1]。然而，仅依赖图像本身往往不足以全面捕捉其美学维度。通过结合图像相关标注的分析，可以更深入、更细致地理解图像的美学价值。带有美学洞察的标注在解释图像的艺术价值方面提供了宝贵的支持。在在线艺术社区中，伴随图像的标注反映了个人的美学判断，表达了构图和技术等品质。图像美学标注的研究旨在利用计算机视觉和自然语言处理来自动生成这种富有表现力、注重质量的描述。

与主要强调客观内容描述的传统图像标注任务[2]不同，图像美学多属性标注[3][4]基于美学心理学的多属性整合模型[5]。这一理论框架认为，人类的美学判断并非作为一个整体的印象出现，而是源于多个可分离的感知属性的评估和综合。与此认知观点一致，我们的任务优先生成涵盖细粒度美学维度（包括颜色和光线、构图、景深、焦点和主题）的结构化标注。这种方法不仅提供了更丰富、更有信息的反馈，还紧密反映了人类形成和表达美学评价的认知机制，因此比通用标注或单一评分评估具有更大的解释深度和实际价值。这些美学评价从多种角度反映了细致的美学特征，展示了对美学质量的更复杂和深刻的理解，涵盖了广泛的美学语义。图像美学多属性标注的方法与美学心理学中的原则紧密一致，这些原则表明个体基于一系列不同的美学属性形成美学判断。

尽管在分类、评分和分配任务中取得了显著的美学质量评估进展，但美学信息的表达仍然不完整。越来越需要生成包含整体美学印象及其细粒度属性的全面美学标注，从而增强语义深度和可解释性。在美学标注生成领域，现有方法在提高生成标注的多样性和语义精确性方面仍面临挑战。正如本研究的实验部分所示（见表3），最先进的图像标注模型BLIP[6]在富含美学属性的PCCD数据集上的ROUGE-N得分仅为0.137。这一发现初步表明，通用视觉-语言模型在理解和表达细粒度美学概念方面面临重大挑战，这凸显了开发专门针对美学属性建模的新框架的必要性。虽然CLIP在各种计算机视觉任务中表现出色，但直接在CLIP上训练美学标注生成模型难以有效捕捉细致的美学属性。这些限制主要源于CLIP的预训练范式与美学任务的内在要求之间的根本不匹配。首先，从语义角度来看，CLIP的训练数据强调客观内容描述而非主观评估，导致学习到的视觉-语言关联无法编码美学细微差别和专业评估语言。其次，从结构角度来看，CLIP的纠缠表示空间缺乏对构图和光线等美学属性的明确分离和锚定，从而限制了其生成精确属性描述的能力。因此，直接将CLIP或基于CLIP的通用标注模型应用于美学生成通常会导致美学信号稀释和属性控制无效。我们的初步分析显示（见表8），直接使用原始CLIP权重初始化模型在美学图像标注任务上的表现不尽如人意。这表明，尽管CLIP具有强大的通用视觉-语言对齐能力，但其表示并未针对美学属性进行优化，限制了其支持高质量、细粒度美学描述生成的能力。这一观察结果促使我们设计了一个专门针对美学的视觉-语言预训练阶段。为了解决这些不足，本研究试图通过多阶段美学预训练注入领域特定知识，并通过属性控制机制实现结构化生成，最终生成一个真正“理解”美学的模型，并能够提供细致的美学评价。为了弥合CLIP视觉美学表示中的语义差距，本章介绍了一种基于视觉-语言预训练的图像美学多属性标注模型（IAMC-VLP）。该模型旨在自动生成与人类美学感知相呼应的美学多属性标注。

在监督学习任务中，深度学习经常面临鲁棒性不足和泛化能力差的问题。对比学习通过将正样本对拉近并将负样本对拉开，鼓励模型学习图像和文本之间的对齐特征表示，从而提高模型对视觉和语言变化的鲁棒性，并帮助模型学习跨模态泛化能力。Mokady等人[7]提出使用CLIP模型编码器来训练有效的图像标注模型。我们的研究受到文献[7][8]的启发，由于CLIP在视觉-语言多模态任务中表现优异，文献[9][10]展示了CLIP的优势[11]。然而，用于训练CLIP的图像-文本对的美学相关性较差，直接在CLIP上训练美学标注模型会导致美学信息稀释，难以有效捕捉美学属性信息。为了弥合CLIP视觉-美学表示中的这一语义差距，本研究采用了“预训练和微调”范式。通过利用预训练模型中嵌入的丰富美学和文本先验，并结合对比学习和生成学习，我们提出了一个基于视觉-语言预训练的模型来生成图像美学多属性标注。为了实现不同美学维度上的可控生成，我们的模型引入了一组美学属性控制标志。这些标志在训练和推理过程中作为明确的条件信号，使得可以精确调节生成标注应涉及的特定属性，这是实现细粒度分析的关键设计。

本研究在基于视觉-语言预训练的图像美学多属性标注方面的主要贡献如下：

(1) 本研究提出了一个用于生成图像美学多属性标注的视觉-语言预训练框架。该框架采用“预训练和微调”策略，充分利用了预训练模型中嵌入的丰富美学特征。结合GPT-2的语言生成能力，该模型能够生成高质量的美学多属性标注。

(2) 映射网络和GPT-2解码器的联合优化对于实现卓越的性能至关重要，促进了强大的跨模态对齐和高度流畅的文本生成。此外，引入美学属性控制标记可以精确调节美学多属性标注的生成。

(3) 在DPC-MAC和PCCD数据集上的性能评估表明，所提出的方法在多个指标（包括BLEU、METEOR和SPICE）上始终优于主流方法。该模型有效生成了与相应属性特征紧密对齐的美学标注。一系列定量和定性实验进一步验证了所提出框架的卓越性能。

章节片段

图像美学标注

近年来，在图像美学质量评估领域[12][13][14][15]的研究取得了显著进展；然而，现有方法在生成评论和分析美学属性方面仍存在相当大的局限性。Chang等人[16]是最早探索照片美学和摄影技术多属性标注的研究者之一。他们提出了以属性为导向和属性融合的方法，前者针对单个

提出的方法

为了实现细粒度的多属性美学标注，我们的模型必须依次解决三个基本挑战：(i) 美学表示对齐，(ii) 基于属性的生成，以及 (iii) 美学知识的有效转移。因此，我们引入了三个核心组件：一个跨模态映射网络，用于弥合通用视觉特征和以美学为导向的文本表示之间的语义差距；一组属性控制标记，用于精确引导

数据集

为了评估所提出的IAMC-VLP的有效性，我们在四个公共数据库上进行了实验：FAE-Captions [48]、DPC2022 [4]、DPC-MAC [49] 和 PCCD [48]。

(1) FAE-Captions

FAE-Captions [48] 是专门为图像美学标注策划的，包含251,070张高质量图像和1,004,284条美学标注。然而，该数据集没有为图像提供美学评分或属性级别的注释。在本研究中，训练集和验证集的比例为20:1

局限性

我们的模型的训练和评估仅在摄影美学数据集上进行，这些数据集在风格（例如，强调风景或花卉主题）、主题偏好和注释视角（专业摄影师）方面存在固有偏见。因此，该模型在非摄影艺术形式（如绘画或数字插图）以及专门的摄影类型（如黑白、微距或街头摄影）上的表现尚不清楚，

CRediT作者贡献声明

杨洪涛：撰写——原始草稿、软件、方法论、调查、形式分析、概念化。刘叶辉：监督、项目管理、资金获取。韩璐：验证、软件。孔永强：撰写——审阅与编辑、软件。金鑫：监督、资源、项目管理。史平：方法论。

未引用的参考文献

[57]

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号