CLIPRefiner:通过语义感知优化提升手绘草图的真实感和细节表现
《Pattern Recognition Letters》:CLIPRefiner: Enhancing realism and detail in free-hand sketches through semantically-aware optimization
【字体:
大
中
小
】
时间:2025年10月11日
来源:Pattern Recognition Letters 3.3
编辑推荐:
CLIPRefiner通过CLIP模型优化贝塞尔曲线,分全球和局部优化提升素描语义与细节,无需专用数据集,实验验证其有效性与生成RefinedSketchy数据集。
田英杰|刘明浩|苏铎
中国科学院大学经济与管理学院,北京,100190,中国
摘要
手绘草图是个体表达对世界内在认知的基本工具,它弥合了抽象与具体之间的差距。然而,并非每个人天生就具备通过草图传达想法的能力,这导致草图常常存在一定的局限性。因此,将粗糙的草图精炼成精美的作品对人类和机器来说都是一项有趣的挑战。本研究介绍了CLIPRefiner,这是一种创新方法,它利用预训练的CLIP模型将不同类别的粗糙草图转化为精美的作品。CLIPRefiner通过平滑和优化两组贝塞尔曲线,结合全局和局部优化过程来增强图像的语义并丰富草图细节,而无需专门的草图训练数据集。值得注意的是,CLIPRefiner的局部笔画初始化重采样显著加快了收敛过程。定性和定量实验有力证明了CLIPRefiner将粗糙草图转化为高质量、精炼版本的能力。用户研究强调了CLIPRefiner提升草图语义感知的效果,而消融研究则提供了关于CLIPRefiner各模块有效性的宝贵见解。此外,CLIPRefiner的结果被整理成了RefinedSketchy专业数据集,其中包含了粗糙草图与精炼草图的配对图像,为更广泛的草图研究社区提供了宝贵的资源。
引言
抽象是人类表达和理解的核心认知过程。手绘草图架起了抽象概念与具体表现之间的桥梁,使得超越语言的交流成为可能——尤其是对于缺乏语言能力的个体,如儿童。然而,大多数人的绘画技巧不如专业艺术家,因此他们绘制的草图往往语义模糊、结构不精确。这使得将粗糙草图精炼成精美且富有表现力的作品在日常生活中既具有实际意义,又在技术上具有挑战性[1]。
手绘草图分析在计算机视觉领域受到了越来越多的关注,应用于基于草图的图像检索[2]、[3]、草图生成[4]、[5]、[6]、图像合成[7]、[8]以及草图编辑[9]、[10]等领域。预训练模型的出现,尤其是CLIP[11],显著提升了与草图相关任务的语义理解能力[12]。然而,使用CLIP进行草图精炼仍然具有挑战性。早期方法主要关注低级别的形状美化[13]、笔画简化[14]或清理[15],常常忽视了结构或语义的准确性。最近的方法依赖于专业标注的、特定类别的数据集[16]、[17],这限制了其对多样化和真实世界草图的泛化能力。这些局限性凸显了需要一种通用且无需训练的方法,能够以语义精度精炼各种粗糙草图。
为了解决粗糙手绘草图精炼的问题,提出了CLIPRefiner,该方法可将用户提供的草图转化为详细且语义对齐的表示形式。与专注于从图像生成抽象草图的CLIPasso不同,CLIPRefiner通过将草图与CLIP视觉嵌入空间中的目标图像对齐来直接优化草图。结合全局-局部优化和显著性引导的笔画初始化,该方法增强了结构的连贯性和细节的精细度,如图2所示。
我们进行了定性和定量实验来评估CLIPRefiner精炼后的草图的质量和可识别性。用户研究证实了草图语义感知的提升,而消融实验评估了不同模块的贡献。利用Sketchy数据集[18]和额外精选的草图,我们进一步生成了RefinedSketchy,一个新的精炼草图-图像数据集,以支持未来的研究。
总结来说,本文的主要贡献包括:
- •
提出CLIPRefiner,这是一种无需专业草图数据集即可将粗糙草图精炼成精美版本的新方法,并在多个类别中证明了其有效性。
- •
通过局部优化和重采样增强局部细节,从而生成更准确、更真实的草图。
- •
通过全面评估验证了精炼草图的质量和保真度。
- •
生成精炼草图,为草图研究社区构建了一个有价值的粗糙-精炼草图-图像数据集。
章节片段
草图优化
近年来,人们越来越关注通过提高笔画清晰度和结构来精炼手绘草图。艺术家经常使用重叠的笔画簇来表示曲线,这激发了基于簇的矢量化方法[14]、[19]的发展。草图简化网络[20]和清理数据集[15]进一步支持了精炼过程,而矢量化技术旨在消除连接处的歧义[21]。然而,这些方法主要关注笔画级别的清理,而没有修改整体结构。
方法
草图作为一种独特的图像表示形式,与普通图像有显著差异。同一类别的草图与其对应图像之间的差异通常比两张草图之间的差异要大得多。为了研究这一点,我们分析了草图和目标图像在CLIP空间中的特征分布(图1),发现两者之间存在显著差距。为了弥合这一差距,我们将优化后的草图视为原始草图与目标图像之间的中间状态。
定性评估
图2展示了不同风格和类别的精炼结果。CLIPRefiner有效地将粗糙草图转化为与目标图像更加对齐的形式,平滑了瑕疵同时保留了关键特征。在“汽车”和“杯子”的例子中,高质量的草图得到了更高精度的进一步优化,捕捉到了车轮和手掌轮廓等细节。对于质量较低的输入,该方法强调整体语义的连贯性,通过上下文细化解决了不一致性问题。
结论
本研究介绍了CLIPRefiner,这是一种精心设计的用于精炼粗糙手绘草图的方法,特别注重通过语义感知的优化来提升真实感和细节丰富度。CLIPRefiner高效运行,无需传统的模型训练过程;相反,它在评估阶段采用迭代优化方法。实验结果证实了CLIPRefiner生成的草图质量。
CRediT作者贡献声明
田英杰:验证、监督、调查、形式分析。刘明浩:撰写——审稿与编辑、撰写——初稿、可视化、软件、方法论。苏铎:撰写——审稿与编辑、可视化、验证、监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号