基于Style-to-CLIP投影与多级控制扩散的文本驱动艺术字形生成方法ArtGlyphDiffuser

【字体: 时间:2025年08月02日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出ArtGlyphDiffuser模型,首次实现基于文本驱动的单样本艺术字形生成。通过创新性Style-to-CLIP(S2CP)投影模块融合跨模态信息,结合多级控制(MLC)块增强复杂笔画生成,并引入粗粒度上下文一致性损失(CGC2L)优化特征提取。实验表明该方法在多种字形风格生成中达到SOTA水平,代码已开源。

  

Highlight

本研究突破传统图像驱动局限,首次实现文本驱动的艺术字形生成。

Automatic Artistic Glyph Image Generation

自动艺术字形生成可分为字形合成[3]和风格迁移[8]两类。早期方法如Zi2zi[3]将任务视为图像翻译问题,难以处理未见风格。后续研究通过解耦内容与风格特征取得进展,但仍依赖特定标准字体集。

Proposed Methodology

ArtGlyphDiffuser架构基于Stable Diffusion(SD)模型,创新性引入:

  1. Style-to-CLIP投影(S2CP)模块:通过非线性映射专攻艺术风格表征

  2. 多级控制(MLC)块:在U-Net去噪过程中整合多尺度信息

  3. 粗粒度上下文一致性损失(CGC2L):避免模型过度关注像素级特征

MCGAN-Dataset

包含32,046种合成艺术字体(图4a),每个字体含26个64×64像素的字母字形。

Chinese100-Dataset

新建中文数据集包含:

• 字形三级分类:标准/变形/图案化

• 风格三级分类:纯色/渐变色/纹理

Conclusion

ArtGlyphDiffuser在字形结构和风格多样性方面显著优于现有方法,其S2CP模块和MLC块的创新设计为跨模态艺术生成提供新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号