FPMT:通过拉普拉斯金字塔实现快速、精确的高分辨率图像转印技术
《Pattern Recognition》:FPMT: Fast and Precise High-Resolution Makeup Transfer via Laplacian Pyramid
【字体:
大
中
小
】
时间:2026年02月04日
来源:Pattern Recognition 7.6
编辑推荐:
化妆迁移加速框架FPMT基于拉普拉斯金字塔分解,利用低频承载主要妆容变化,高频仅含少量细节,通过轻量编码器-解码器处理低频并逐级细化高频,实现高分辨率(1024×1024)下42FPS的实时性能,显著优于现有方法。
阳光孙|熊胜武|荣毅
武汉理工大学,武汉,430070,中国
摘要
在本文中,我们专注于加速高分辨率的妆容转移过程,同时不牺牲生成性能。为此,我们提出了一种基于拉普拉斯金字塔的快速精确妆容转移(FPMT)框架。在FPMT中,我们发现大部分妆容变化集中在低频成分中,而少量与颜色和纹理相关的细节包含在高频成分中。利用这一洞察,FPMT采用轻量级的编码器-解码器网络对输入的低频成分进行妆容转移,从而提高效率。对于每个高频成分,FPMT实现了一个微小的细化网络,逐步预测一个掩码并自适应地细化妆容细节,以确保转移质量。通过堆叠计算效率高的细化网络,FPMT可以处理更高分辨率的图像,展示了其灵活性和可扩展性。使用单个GTX 1660Ti GPU,FPMT可以在1024×1024分辨率的输入图像上实现约42 FPS的推理速度,这比现有最先进的方法快得多。广泛的定量和定性分析验证了所提出的FPMT框架的有效性和效率。源代码可在以下链接获取:
https://github.com/Snowfallingplum/FPMT。
引言
妆容转移技术[1]、[2]的主要目标是从参考面部图像中提取妆容风格信息,并将其转移到目标图像上,同时最大限度地保留目标图像的内容信息(例如,人物身份和图像背景)。这种技术在电子商务、娱乐和美容行业显示出巨大的经济潜力,并已广泛应用于许多实际场景中,如照片合成、网络直播和虚拟试妆。
为了实现上述目标,大多数现有的妆容转移方法[2]、[3]通常采用编码器-解码器框架。该框架首先将输入图像(包括参考图像和目标图像)编码到低维特征空间中。然后,通过融合从参考图像和目标图像特征中提取的妆容风格和内容信息,在该空间生成潜在嵌入。之后,将此嵌入输入解码器以恢复空间分辨率并生成最终的转移输出。然而,这些方法通常只关注生成具有精细细节的高质量妆容转移结果,而对设计模型的计算效率考虑较少。具体来说,它们的编码和解码过程通常会生成具有大量通道的多个中间特征图,这导致卷积操作的计算开销很高。当处理更高分辨率的输入图像时,模型的计算复杂性会进一步增加,因为需要更多的大核卷积来捕获上下文信息以避免性能下降[4]。因此,这些方法只能处理低分辨率图像,通常推理速度较慢[5]、[6],限制了它们在实际应用中的可行性。
为了解决这些问题,本研究重点关注加速妆容转移过程,特别是在高分辨率输入上,同时不牺牲结果图像的转移质量。我们基于对妆容信息频率特征的重要观察来实现这一目标。为了说明这一点,我们首先从MT数据集中随机抽取200对测试图像,然后使用拉普拉斯金字塔[7]将每张参考图像及其由不同方法生成的结果分解为多个高频(HF)成分和一个低频(LF)成分,如图1所示。从结果可以看出大部分妆容变化集中在LF成分中,而少量与颜色和纹理相关的细节(主要位于嘴唇和眼睛区域)包含在HF成分中。此外,我们还在表1中报告了每个频率带的目标图像和转移图像之间的均方误差(MSE)。可以看出,在LF成分上计算的MSE值与原始图像上的MSE值相似,而HF成分上的MSE值要大得多。这也表明妆容差异主要包含在LF成分中,验证了上述观察结果。需要注意的是,与最近的CSD-MT[8]不同,我们将图像分解为多个HF成分而不是一个,并考虑了这些HF成分中的妆容残留物,而不是忽略它们。
为了充分利用妆容信息的这些频率特征,我们提出了一种基于频率分解和重建的快速精确妆容转移(FPMT)框架,利用了拉普拉斯金字塔[7]。具体来说,给定一对输入图像,我们在它们的LF成分上施加一个轻量级的编码器-解码器网络,将大部分妆容风格从参考图像转移到目标样本上。此外,HF成分中包含的少量妆容细节对于忠实重建转移结果也是必不可少的。因此,我们在每个金字塔层级构建了一个微小的网络,以自适应地细化目标图像的HF成分。这些网络逐步预测每个HF成分的掩码,指示需要细化的区域,然后根据当前转移的妆容信息更新这些区域内的颜色和纹理细节。通过堆叠计算效率高的细化网络,FPMT可以处理更高分辨率的图像,展示了其灵活性和可扩展性。
通过上述设计,所提出的FPMT框架带来了以下改进:1)拉普拉斯金字塔产生的LF和HF成分的通道数量远少于传统方法产生的中间特征图,从而降低了应用于它们的操作的计算成本。2)与原始输入相比,LF成分的较低分辨率使我们能够使用更少的卷积操作进行图像编码和解码,从而形成了一个轻量级的妆容转移网络。3)微小的细化网络逐步细化HF成分中的妆容细节,确保了最终转移结果的高质量。4)广泛的定量和定性分析验证了我们的FPMT方法与现有最先进方法相比的有效性和效率。在单个GTX 1660Ti GPU上,FPMT在1024×1024分辨率的图像上实现了42 FPS的有希望的妆容转移结果,这比现有最先进的方法快得多。
本文的其余部分组织如下:第2节我们简要回顾了相关工作,包括当前的妆容转移方法和频率分解技术。然后,在第3节中介绍了我们提出的FPMT框架的技术细节。随后,第4节在三个公开可用的妆容转移数据集上进行了广泛的实验,以评估FPMT的有效性和效率。最后,在第5节中我们对这项工作进行了总结。
章节片段
妆容转移
在过去的十年中,作为新兴的应用和研究领域,妆容转移吸引了人工智能和计算机视觉社区的越来越多的关注。BeautyGAN[1]引入了直方图匹配损失和双输入/输出GAN[9],同时完成实例级别的妆容转移和去除。BeautyGlow[10]提出将Glow模型生成的面部图像的潜在向量分离为妆容部分和非妆容部分。LADN[11]设计了多个
方法论
如图2(a)所示,给定一个参考图像和一个目标图像作为输入,所提出的FPMT框架首先通过拉普拉斯金字塔[7]将它们分解为多个HF成分分别代表目标图像S0的H0和相应的LF残差。这里,H和W表示输入图像的长度和宽度,L表示图2中使用的金字塔层级数量。在频率
实验设置
数据集。我们使用三个公开可用的妆容转移数据集来评估我们的FPMT方法的有效性:MT [1]、Makeup-Wild [2] 和 LADN [11]。MT数据集包含1,115张非妆容图像和2,719张妆容图像,分辨率为361×361。Makeup-Wild数据集包含403张妆容图像和369张非妆容图像,具有较大的姿势和表情变化。LADN数据集包含333张非妆容图像和302张妆容图像,其中115张被归类为极端妆容风格。
结论
虽然现有的妆容转移方法能够获得高质量的结果,但它们通常具有较慢的推理速度和有限的分辨率能力。为了解决这个问题,我们提出了一种高效且有效的FPMT框架,以加速高分辨率的妆容转移过程,同时不牺牲生成性能。我们的关键见解源于频率分析:妆容变化主要集中于低频(LF)成分,而高频(HF)成分包含稀疏的
CRediT作者贡献声明
阳光孙:撰写——原始草案、软件、方法论、数据整理。熊胜武:撰写——审阅与编辑、监督。荣毅:撰写——审阅与编辑、监督、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号