
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DiffPortraitVideo:基于扩散模型的、保持表情一致性的零样本肖像视频转换技术
《IEEE Transactions on Visualization and Computer Graphics》:DiffPortraitVideo: Diffusion-Based Expression-Consistent Zero-Shot Portrait Video Translation
【字体: 大 中 小 】 时间:2026年02月09日 来源:IEEE Transactions on Visualization and Computer Graphics 6.5
编辑推荐:
零样本文本到视频扩散模型扩展了预训练图像扩散模型到视频域,无需额外训练。现有方法依赖形状约束和帧间注意力保证纹理一致性,但限制了风格化几何变形且忽视原始纹理特征,导致闪烁和不一致面部表情。本文提出DiffPortraitVideo框架,结合扩散模型特征与注意力注入生成关键帧,通过跨帧约束确保连贯性,自适应特征融合保障表情一致性,实验验证其高效性、高时空一致性和保留文本/原始图像特性,优于现有方法并推动个性化高质量视频生成研究。
在当今的数字时代,短视频已成为各种平台上非常受欢迎的娱乐形式。人们不断创建、分享和观看短视频,这凸显了视频编辑和艺术增强的重要性。为了提高视频内容的视觉吸引力和趣味性,人们付出了大量努力。在图像编辑方面,通过使用不同的模型[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10],取得了显著进展。然而,视频处理本身也带来了一系列复杂的挑战。保持自然的运动效果并确保多帧之间的时间连贯性需要大量的工作。过去,如果想要保证视频中的动作流畅且连贯,有两种常见的但相对繁琐的方法:第一种方法是在大型数据集上训练复杂的模型[11]、[12]、[13]、[14]、[15],这一过程需要大量的计算资源和时间;而且收集和准备这些大型数据集也并非易事。第二种方法是为特定视频微调基于图像的模型[16]、[17]、[18]、[19],但这同样存在缺点,既耗时又需要一定的技术专长,且在人力和计算成本方面往往较高,对于只想快速提升视频质量的普通用户来说并不实用。另一方面,零样本方法[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]提供了一种更有前景且高效的解决方案。这些方法将时间一致性约束直接集成到图像模型的推理阶段,从而有效克服了传统方法的局限性,使用户能够以更便捷、更实用的方式处理视频,而无需面对传统方法带来的复杂性和成本问题。