
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Style-to-CLIP投影与多级控制扩散的文本驱动艺术字形生成方法ArtGlyphDiffuser
【字体: 大 中 小 】 时间:2025年08月02日 来源:Pattern Recognition 7.6
编辑推荐:
本文提出ArtGlyphDiffuser模型,首次实现基于文本驱动的单样本艺术字形生成。通过创新性Style-to-CLIP(S2CP)投影模块融合跨模态信息,结合多级控制(MLC)块增强复杂笔画生成,并引入粗粒度上下文一致性损失(CGC2L)优化特征提取。实验表明该方法在多种字形风格生成中达到SOTA水平,代码已开源。
Highlight
本研究突破传统图像驱动局限,首次实现文本驱动的艺术字形生成。
Automatic Artistic Glyph Image Generation
自动艺术字形生成可分为字形合成[3]和风格迁移[8]两类。早期方法如Zi2zi[3]将任务视为图像翻译问题,难以处理未见风格。后续研究通过解耦内容与风格特征取得进展,但仍依赖特定标准字体集。
Proposed Methodology
ArtGlyphDiffuser架构基于Stable Diffusion(SD)模型,创新性引入:
Style-to-CLIP投影(S2CP)模块:通过非线性映射专攻艺术风格表征
多级控制(MLC)块:在U-Net去噪过程中整合多尺度信息
粗粒度上下文一致性损失(CGC2L):避免模型过度关注像素级特征
MCGAN-Dataset
包含32,046种合成艺术字体(图4a),每个字体含26个64×64像素的字母字形。
Chinese100-Dataset
新建中文数据集包含:
• 字形三级分类:标准/变形/图案化
• 风格三级分类:纯色/渐变色/纹理
Conclusion
ArtGlyphDiffuser在字形结构和风格多样性方面显著优于现有方法,其S2CP模块和MLC块的创新设计为跨模态艺术生成提供新思路。
生物通微信公众号
知名企业招聘