编辑推荐:
视觉相似性在计算机视觉等领域至关重要,但基准数据集稀缺阻碍了对模型相似性感知的研究。研究人员构建 Style Aligned Artwork Datasets(SALAD),以 fruit-SALAD 为例,对比多种模型,揭示其在语义和风格相似性感知上的差异,为模型研究提供新平台。
在计算机视觉的奇妙世界里,图像之间的相似性判断就像一把神奇的钥匙,开启了诸多应用的大门,比如图像检索、分类等。然而,这把 “钥匙” 却被一个棘手的问题困扰着 —— 缺乏可靠的基准数据集。在探索模型如何感知图像相似性时,没有合适的数据集,就如同航海时没有精准的地图,研究人员常常迷失方向。
目前,已有的基准图像数据集存在各种局限性。有的主要聚焦于特定任务,如零样本评估;有的虽然利用合成图像,但规模有限,难以全面反映图像相似性的复杂本质。而且,在计算模型中,相似性通常简单定义为数据点在度量空间中的距离,忽略了相似性感知的多面性。在实际应用中,像判断生成图像的主题保真度时,不同模型对相似性的侧重点不同,CLIP 更擅长捕捉语义关系,DINO 则更关注视觉特征,但验证这些差异困难重重。
为了解开这些谜团,来自塔林大学(Tallinn University)等机构的研究人员踏上了探索之旅,开展了关于 Style Aligned Artwork Datasets(SALAD)的研究,其中以 fruit-SALAD 数据集为典型代表。他们的研究成果意义非凡,为深入理解计算模型和人类的相似性感知机制提供了关键线索,相关论文发表在《Scientific Data》上。
研究人员在构建 fruit-SALAD 数据集时,运用了多种关键技术方法。首先,借助稳定扩散 XL(Stable Diffusion XL)和 StyleAligned 技术生成图像。他们精心设计图像生成提示词,通过反复试验确定风格参考图像,再利用扩散反演生成不同水果在同一风格下的多个实例。之后,对生成的图像进行人工筛选,去除不符合要求的图像。在特征提取方面,从多种机器学习模型和压缩算法中获取向量嵌入,如利用视觉 Transformer(ViT)、DINO 等模型的特定层提取特征向量,还使用了压缩集成(Compression Ensembles)方法等。
研究结果
- 数据集构建:fruit-SALAD 数据集包含 10,000 张水果图像,涵盖 10 种容易识别的水果类别,每个类别以 10 种视觉上截然不同的风格呈现,每种组合有 100 个实例。图像文件名遵循 “fruit_style_instance.png” 的格式,方便识别和管理。
- 自我识别测试:通过对数据集进行自我识别测试,研究人员发现不同模型对同一类别 - 风格组合图像的相似性感知存在差异。例如,“水彩” 风格的 “苹果” 和 “橙子” 在识别上具有一定挑战性,经过多次图像生成迭代才达到足够的准确率。
- 模型热图分析:利用马氏距离(Mahalanobis distance)计算不同模型下图像之间的平均距离,生成模型热图。热图展示了不同计算模型在类别和风格相似性权重上的显著差异,为比较模型提供了直观依据。
- 模型比较:将不同模型的距离集看作多维向量,在共享空间中进行直接比较。通过主成分分析(PCA),研究人员发现不同模型在相似性感知上各有特点,如 CLIP - ViT - B - 16L400M和 DINO - ViT - B - 16IN1k对苹果和橙子的相似性感知存在明显差异,这可以从基于归一化图像嵌入向量的多维缩放(MDS)散点图中看出。
研究结论表明,fruit-SALAD 数据集为研究不同模型的相似性感知提供了一个可控且平衡的平台。它不仅能够量化模型在语义类别和风格识别任务中的表现,还能从定性角度进行解释,超越了以往基准数据集的局限。通过该数据集,研究人员可以更深入地了解不同模型在相似性感知上的差异,这些差异源于模型设计、训练数据、参数配置或相似性度量方法的不同。这一研究成果有助于指导模型训练和优化,使模型在图像相关任务中表现得更加精准和智能。同时,它也为跨学科研究提供了新的思路,促进了计算机视觉、认知科学等领域在相似性感知方面的进一步探索,为未来相关技术的发展奠定了坚实基础。