利用LoRA技术实现高效扩散，从而在真实图像卡通化过程中精确呈现细粒度细节

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：LoRA-empowered efficient diffusion for accurate fine-grained detail rendering in real-image cartoonization

【字体：大中小】 时间：2026年01月08日 来源：Image and Vision Computing 4.2

编辑推荐：

　　通过LoRA微调扩散模型，将现实京剧人物照片转化为高保真卡通风格，解决长尾数据泛化与专用数据集成本高的问题。

Mingjin Liu | Yien Li

北京交通大学，中国北京市海淀区上苑春3号，邮编100044

摘要

生成模型的最新进展使得从文本到图像的合成到艺术内容的创作等多种应用成为可能。然而，生成高质量、特定领域的内容——尤其是像中国戏曲这样具有独特文化风格的内容——仍然具有挑战性，这主要是由于在长尾数据上的泛化能力有限，以及使用专门数据集进行微调的成本较高。为了解决这些限制，我们提出了DreamOpera，这是一个将现实世界中的中国戏曲角色照片转换为风格化卡通表示的新框架。我们的方法采用了两步过程：（1）使用预训练的编码器提取关键视觉特征（例如服装、面部特征）；（2）通过在一个小型、非配对的卡通风格戏曲图像数据集上训练的LoRA微调扩散模型来进行领域转换。这种策略绕过了对配对数据的需求，同时保留了细节。实验表明，DreamOpera在生成高保真度、具有文化细微差别的艺术作品方面优于现有方法，具有实际应用价值，特别是在文化传播和数字艺术领域。

引言

近年来，大规模数据集的出现显著加速了生成模型的发展。这些模型涵盖了多种任务，包括文本到图像[1]、[2]、[3]、图像到图像[4]、[5]、[6]、文本到视频[7]、[8]、[9]以及文本到3D的生成[11]、[12]、[13]、[14]等。生成模型的进步使它们在社会多个领域得到了广泛应用，催生了众多下游用例。例如，AI生成的图像和视频被广泛用于广告设计、文化传播和艺术创作，从而提高了内容制作的效率，并促进了创新探索（见图1）。

生成模型的训练严重依赖于数据驱动的策略，利用大规模数据集来获得高质量的结果。例如，Stable Diffusion [1]的训练使用了LAION [15]数据集，该数据集包含超过4亿个文本-图像对。这个广泛的数据集涵盖了丰富的视觉概念，有助于模型的出色生成能力。然而，它们仍然存在一些限制。（1）在长尾数据上的泛化能力有限。尽管大规模数据集具有多样性，但它们通常缺乏对特定领域的充分覆盖，特别是那些具有独特文化或风格特征的领域。例如，在卡通中国戏曲的情况下，现有模型难以生成符合领域特定标准的内容。（2）数据和计算密集型的微调要求。有效地对特定主题的模型进行微调需要大量的领域特定数据和大量的计算资源。这严重限制了这些模型在特定垂直领域的广泛应用。总之，为这些应用生成高质量、高度个性化的内容仍然具有挑战性。

为了解决这些限制，我们引入了DreamOpera，这是一个用于生成具有独特艺术风格的高质量数字资产的新框架，以中国戏曲角色作为我们的主要研究案例。具体来说，我们旨在研究将现实世界中的中国戏曲角色照片转换为卡通风格表示的方法，展示其在文化传播和艺术创作等领域的显著应用价值。收集大量配对数据（如将中国戏曲角色的真实照片与其卡通版本匹配）是困难的。这通常需要艺术家花费大量时间手工绘制每个卡通版本，成本过高且不切实际。因此，我们改变了方法，使用非配对数据进行微调。我们首先收集了一个符合我们要求的现有数据集，该数据集包含大约1000张卡通风格的中国戏曲角色图像。与之前的模型训练相比，这个数据集的规模要小得多。我们通过两个关键步骤来进行生成过程：（1）特征提取：使用预训练的图像编码器提取现实世界中的角色特征，包括服装、头发颜色、面部特征等；（2）领域转换：然后将提取的潜在特征映射到目标卡通风格领域。为此，我们使用Lora使用我们收集的数据集对扩散模型进行微调。完成上述训练过程后，我们现在可以在推理阶段输入任何现实世界中的中国戏曲角色照片。通过使用图像编码器和风格化的微调扩散模型，模型可以生成相应的卡通风格照片。为了减少数据和计算需求，我们采用了基于LoRA [16]的微调策略。这种方法将大规模的权重调整分解为较小的矩阵调整，使我们的方法能够在最少的数据需求下完成任务。

与之前的方法相比，我们的结果在保留特定属性（如服装、姿势和风格）方面表现出更高的视觉生成质量。在定量指标方面，我们的方法优于其他最先进的方法。这些发现突显了我们方法对下游应用和未来研究的重要价值。

总之，我们的主要贡献包括：

•
我们提出了DreamOpera，这是一种从现实世界照片生成高保真度卡通风格图像的新流程，同时保留了细节。
•
我们提出了一种通过两步过程（特征提取和转换）来处理风格转换任务的新方法。相应的技术模块专为通过LoRA进行高效训练而设计。
•
实验结果表明，我们的方法优于现有工作，并实现了高质量的生成。

部分摘录

图像生成模型

生成建模领域已经取得了显著进展，几种关键架构推动了这一发展。自动编码器（AEs）[17]通过编码器-解码器框架学习了数据的压缩表示，尽管它们经常产生模糊的重建结果。变分自动编码器（VAEs）[18]通过引入概率潜在空间改进了这一点，使得采样更加平滑，但在细节处理上仍然存在问题。

生成对抗网络（GANs）[19]

方法

在本节中，我们将介绍DreamOpera框架。首先，我们介绍了扩散模型的基本概念。为了解决在没有配对训练数据的情况下进行风格化生成的挑战，我们将这项任务分为两个阶段：（1）从输入信号中提取有意义的特征；（2）将这些条件特征转换为目标领域。最后，我们提出了一种高效的训练策略，能够在无需配对数据的情况下实现快速微调。

实施细节

我们的模型在512 × 512的分辨率下进行训练，有效批量大小为4（每个GPU上的批量大小为1）。我们使用LoRA等级为16，学习率为

1 \times 1 ? 4

在推理过程中，我们采用标准的DDIM采样。所有这些设置都遵循扩散模型微调的常见实践。

我们最初收集了大约1000张卡通风格的中国戏曲角色作为转换的目标领域。我们使用Stable Diffusion [1]作为基础模型，并采用了

结论

在这项研究中，我们专注于生成风格化的中国戏曲资产，如卡通风格的图像。为了解决缺乏用于训练端到端转换流程的大型配对数据集的问题，我们提出了一种高效的训练方法，将风格化任务分为两个阶段：特征提取和转换。通过使用预训练的图像编码器和LoRA微调策略，我们成功生成了多样化的目标资产，表现优于

CRediT作者贡献声明

Mingjin Liu：概念化。Yien Li：撰写——原始草稿，概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

图像生成模型

方法

实施细节

结论

CRediT作者贡献声明

利益冲突声明

热点排行