《Pattern Recognition Letters》:Why retrieve when you can edit: A fast conditional StyleGAN latent editing method
编辑推荐:
提出基于教师-学生框架的快速图像编辑方法,利用StyleGAN的条件生成能力通过文本提示修改潜在风格空间特定层,实现精确局部编辑并减少副作用,在CelebA、Cats和Churches数据集上性能优于现有方法且参数量更少。
安德烈·拉杜(Andrei Radu)| 蔡玥(Yue Song)| 安娜·尼亚库苏(Ana Neacsu)| 尼库·塞贝(Nicu Sebe)
信号建模与分析实验室,布加勒斯特国立科学技术大学“Politehnica”,尤利乌·马尼乌大道(Iuliu Maniu Blvd.)6D号,布加勒斯特,061103,罗马尼亚
摘要
文本到图像的扩散模型实际上是图像编辑的常用工具,但它们的缺点是编辑过程耗时且步骤较多,同时参数数量也相当庞大。最近,人们提出了多种方法来提高编辑速度,这些方法大多集中在生成对抗网络(GANs)的潜在空间中寻找有意义的方向,并从中合成所需的特征。然而,这项任务通常需要大量的训练才能提取出有意义的编辑方向。因此,我们提出了一种新的训练范式,类似于师生技术,该范式利用StyleGAN在条件生成方面的卓越性能,通过文本条件来插入图像属性。我们的方法通过在Transformer架构内将文本嵌入与风格空间进行变形来计算所需的潜在风格空间变化。我们在三个基准数据集上研究了我们的方法的编辑能力,以证明在条件StyleGAN(教师网络)训练过程中获得的内在信息以及信息向学生网络的转移效率,其性能优于其他最先进的方法,同时所需资源更少。
引言
图像属性编辑是指在保持图像整体结构、保留现有特征和原始图像真实性的前提下,改变图像特定特性的过程。这一领域在两个不同的分支上取得了显著进展。第一个分支使用生成对抗网络(GANs)[1]、[2]、[3]来利用其潜在空间中的丰富特征,这些特征更容易解释;第二个分支则应用迭代去噪过程来生成最终图像。因此,许多研究人员专注于探索新的方法来增强对这些潜在空间的理解和分离[4]、[5]、[6]、[7]、[8]、[9]。特别值得关注的是像StyleGAN [1]、[2]或BigGAN [3]这样的架构,它们正是基于这种思路进行训练的。尽管取得了这些进展,但仍然面临的挑战是在不引入不需要的伪影或其他特征(通常称为潜在空间中的语义纠缠)的情况下实现精确和局部的编辑功能。随着编码-编辑(e4e)网络[10]的引入,许多新提出的方法[11]、[12]、[13]、[14]将重点从GAN的生成网络作为潜在空间编码器上转移开来。
我们强调通过将StyleGAN应用于类似师生框架的方式来利用其在属性操作方面的潜力。我们利用这种GAN的条件生成能力,通过一种新颖且更快的训练方法为学生网络生成数据。学生网络被称为MiddleNet,它是原始StyleGAN的扩展,位于教师的映射网络和合成网络之间。该网络专门训练用于在潜在空间内学习不同的变换,以实现给定文本所需的属性。
我们的方法解决了现有方法的两个主要局限性。首先,我们实现了特定和局部的编辑,有效地在上述网络的潜在风格空间内进行修改。我们根据文本提示选择要更改的语义特征,这些特征完全由MiddleNet处理,它管理StyleGAN中每一层的潜在风格变化。因此,我们获得了比教师网络更局部的编辑效果。我们解决的第二个挑战是提高身份保持能力,即仅更改与请求特征相关的层,确保原始图像的整体特征和结构的变化最小。
这种方法作为图像检索系统的基础,因为它仅存储编码后的图像。我们认为,当只需要调整少量细节时,编辑解决方案也是可行的[15]、[16],从而使得查询图像和检索图像之间的相似度更高。属性编辑与图像检索在概念上有相似之处。特别是,特征表示在内容和检索过程中都是关键步骤[17],其中潜在空间的接近性允许在检索系统中进行高效搜索,并在属性操作中进行局部编辑。诸如[18]、[19]、[20]之类的工作指出了这两个领域在使用潜在空间导航、相似性搜索和用户引导交互方面的方法相似性。总结来说,我们的主要贡献如下:
•我们提出了一种通过文本提示实现潜在空间修改的新方法,该方法更快、更精确,能够更好地保留图像的原始外观,如图1所示。我们的方法在模型大小和推理速度方面几乎没有增加,非常适合响应时间至关重要或资源有限的系统。在消费级硬件上,开销大约为4.5毫秒和1600万个参数。
•我们通过一种新的文本令牌操作方法解决了类似图像检索的问题,该方法使用从头开始训练的小型编码器,而不是过度依赖像CLIP这样的大型预训练编码器。我们的文本操作旨在通过针对每个风格层的具体令牌来揭示潜在风格空间中的更清晰的方向。
•据我们所知,这是第一种同时利用条件生成和师生训练的方法。我们结合了这两种方法的优点,利用条件训练的优势来训练一个直接在潜在空间中操作的学生网络。与传统的师生蒸馏不同,我们训练的这个精简版本增强了主网络的生成能力,同时也对其进行了更多的控制。
•我们的广泛实验表明,所提出的方法在三个不同的数据集上取得了最先进的结果,无论是从图像主题还是上下文的角度来看。
相关工作
相关工作
用于图像操作的GANs。 GANs彻底改变了计算机视觉的生成领域,从图像生成、超分辨率到图像(或图像风格)转换,为图像属性编辑奠定了基础。一旦GAN架构能够更轻松地控制图像中的特征,对图像属性编辑的研究兴趣就大大增加了。例如BigGAN [3]、ProjGAN [21]或StyleGAN-2 [2]就展示了这一点。
方法论
我们的方法利用StyleGAN的条件生成能力,在师生训练框架中进行了实现。我们引入文本提示,以比类别条件更直观的方式进一步控制生成过程。我们的方法概述如图2所示。该过程包括几个步骤:
1.训练一个类别条件化的StyleGAN(教师),以学习风格空间中每个类别的特征表示。这个模型同时充当
数据集
为了证明我们方法的有效性,我们选择了三个常用于图像生成任务的基准数据集:CelebA和LSUN的两个子集,即Cats和Churches。选择这些数据集是基于它们之间的差异性,从而形成了一个庞大而复杂的测试框架。关于数据集及其限制的更多细节在A.2节中介绍。
指标
我们将我们的方法与几种最先进的图像编辑方法进行了评估,这些方法基于
结论
这项工作提出了一种新颖且高效的类似师生的训练范式,用于通过文本提示控制StyleGAN的生成和编辑。我们的主要贡献有三个方面:(i)我们提出了一种从文本嵌入中提取一组方向表示的方法,这使得通过与现有的w表示进行精确和局部的属性操作成为可能。(ii)我们提出了一种新的文本嵌入方法,该方法促进了方向表示的更大独立性和分离性
CRediT作者贡献声明
安德烈·拉杜(Andrei Radu):撰写——原始草稿、方法论。蔡玥(Yue Song):撰写——审阅与编辑、概念化。安娜·尼亚库苏(Ana Neacsu):撰写——审阅与编辑、监督。尼库·塞贝(Nicu Sebe):撰写——审阅与编辑、监督。
声明利益冲突
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。