《Image and Vision Computing》:PSTF-AttControl: Per-subject-tuning-free personalized image generation with controllable face attributes
编辑推荐:
个性化图像生成与高保真人脸身份保持的挑战,提出无需单独调优的方法,结合面部识别与StyleGAN2的W+空间,通过Triplet-Decoupled Cross-Attention模块实现精准属性控制与身份保留,基于FFHQ数据集验证效果优于现有方法。
刘翔|刘兆祥|胡欢|王志鹏|陈平|陈泽洲|王凯|连世国
中国联合通信数据智能部门,北京,100013,中华人民共和国
摘要
个性化图像生成的最新进展显著提高了面部身份的保真度,尤其是在娱乐和社交媒体等领域。然而,现有方法仍然难以实现无需针对每个主体进行微调(PSTF)即可精确控制面部属性的目标。基于调优的技术(如PreciseControl)在提供对面部特征的细粒度控制方面显示出潜力,但它们通常需要广泛的技术知识和额外的训练数据,这限制了其普及性。相比之下,PSTF方法通过仅使用单一面部输入即可生成图像来简化这一过程,但它们缺乏对面部属性的精确控制。在本文中,我们介绍了一种新的PSTF方法,该方法能够同时实现对面部属性的精确控制和面部身份的高保真度保留。我们的方法利用面部识别模型提取面部身份特征,然后使用e4e编码器将这些特征映射到StyleGAN2的潜在空间中。我们进一步通过Triplet-Decoupled Cross-Attention模块增强了模型,该模块将面部身份特征、属性特征和文本嵌入集成到UNet架构中,确保身份信息和属性信息之间的清晰分离。在FFHQ数据集上训练后,我们的方法可以在不需要对单个身份进行额外微调或训练数据的情况下生成具有面部属性细粒度控制的个性化图像。我们证明了我们的方法成功地在个性化与精确的面部属性控制之间取得了平衡,为高质量、可适应的面部图像合成提供了一种更高效、更用户友好的解决方案。代码将在未来公开发布。
引言
近年来,随着娱乐和社交媒体等领域的应用推动,具有高保真度面部身份保留的个性化图像生成技术发展迅速。然而,现有方法仍未能同时实现两个关键目标:对面部属性生成的精确控制以及无需针对每个主体进行微调(PSTF)的方法。“无需针对每个主体进行微调”指的是不需要对每个新身份进行微调的方法,尽管它们的组件可能需要一次性的全局训练阶段。实现这些目标对于创建真实、可适应且易于使用的面部图像生成模型至关重要。
基于调优的方法[1]、[2]、[3]、[4]、[5](如PreciseControl [6])通过利用StyleGAN2的潜在空间展示了潜力。该空间允许对面部属性进行细粒度控制,使用户能够进行详细的编辑,例如对属性和表情进行微调。尽管这种方法具有优势,但它也有明显的缺点:通常需要技术知识来微调模型参数,需要为每个身份准备一组训练图像,并且涉及耗时的过程。这些因素使得基于调优的方法在更广泛、更用户友好的应用中不太实用。
另一方面,PSTF方法[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]通过仅使用单一面部输入图像即可生成个性化图像,从而消除了参数调整的需要。这些方法通常利用大规模的面部图像数据集和身份适配器来嵌入面部身份,使它们变得易于使用且高效。然而,它们往往缺乏对面部属性的精确控制能力,这限制了它们生成细致、高度定制图像的灵活性。
在这项工作中,我们介绍了一种新颖的无需针对每个主体进行微调的方法PSTF-AttControl,该方法能够在保持面部身份高保真度的同时实现对面部属性的精确控制。我们的方法使用面部识别模型提取面部身份信息,然后使用e4e编码器将面部输入图像映射到StyleGAN2的潜在空间中。接下来,我们通过Triplet-Decoupled Cross-Attention模块将面部身份特征、面部属性特征和文本嵌入集成到UNet架构中。在FFHQ数据集上训练后,我们的模型能够仅使用单一输入图像生成保留面部身份的个性化图像。此外,通过修改空间中的面部属性成分,我们实现了对面部属性的细粒度控制的个性化生成。
我们的贡献可以总结如下:
- •
精确控制和PSTF生成:我们提出了一种同时实现面部属性生成精确控制和PSTF过程的方法。
- •
具有属性控制的合成数据增强:使用FFHQ数据集,我们采用属性控制的合成方法进行数据增强,使模型能够学习可控的面部属性。
- •
Triplet-Decoupled Cross-Attention:该模块有效地将身份特征、属性特征和文本嵌入集成到UNet架构中,确保属性特征不会干扰身份特征。
章节摘录
具有面部身份的个性化图像生成
利用扩散模型的文本到图像生成。 在大规模互联网规模图像-文本对数据集上训练的文本到图像扩散模型[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]实现了高质量的图像生成,并具有出色的泛化能力。像Stable Diffusion这样的模型建立在潜在扩散模型[21]的基础上,它在潜在表示空间而不是直接在像素空间中处理图像。这种方法允许高分辨率图像
初步介绍
文本到图像扩散模型。 在这项工作中,我们使用Stable Diffusion XL(SDXL)作为我们的基础文本到图像模型,这是潜在扩散模型中的最新变体。SDXL在压缩的潜在空间内运行,使用预训练的变分自编码器(VAE),通过降低数据的维度复杂性来实现更计算高效和可扩展的生成过程。
SDXL的训练包括两个阶段。首先,VAE对高维图像数据进行编码
实施细节
训练设置 我们的PSTF-AttControl模型基于SDXL和InstantID框架构建。对于身份编码,我们使用Antelopev2 [34]作为面部识别模型,这与InstantID采用的方法一致。StyleGAN2编码器用于编码面部属性。Triplet-Decoupled Cross-Attention的参数设置为和。在推理过程中,的值设置为0.5,略低于其训练值1.0。超参数
结论
我们提出了一种新颖的PSTF方法PSTF-AttControl,能够在保持面部身份高保真度的同时实现对面部属性生成的精确控制。与PreciseControl等基于调优的方法以及InstantID、W+Adapter和PuLID等最先进的PSTF方法相比,我们的方法在面部属性控制方面表现更优。
在我们的方法中,我们引入了StyleGAN2编码器作为面部属性特征提取模块。通过将其与属性控制相结合
CRediT作者贡献声明
刘翔:撰写——原始草稿。刘兆祥:撰写——审阅与编辑。胡欢:数据整理。王志鹏:数据整理。陈平:形式分析。陈泽洲:数据整理。王凯:形式分析。连世国:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。