DiffPortraitVideo：基于扩散模型的、保持表情一致性的零样本肖像视频转换技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Visualization and Computer Graphics》：DiffPortraitVideo: Diffusion-Based Expression-Consistent Zero-Shot Portrait Video Translation

【字体：大中小】 时间：2026年02月09日 来源：IEEE Transactions on Visualization and Computer Graphics 6.5

编辑推荐：

　　零样本文本到视频扩散模型扩展了预训练图像扩散模型到视频域，无需额外训练。现有方法依赖形状约束和帧间注意力保证纹理一致性，但限制了风格化几何变形且忽视原始纹理特征，导致闪烁和不一致面部表情。本文提出DiffPortraitVideo框架，结合扩散模型特征与注意力注入生成关键帧，通过跨帧约束确保连贯性，自适应特征融合保障表情一致性，实验验证其高效性、高时空一致性和保留文本/原始图像特性，优于现有方法并推动个性化高质量视频生成研究。

摘要：

零样本文本到视频扩散模型旨在无需额外训练的情况下，将预训练的图像扩散模型扩展到视频领域。近年来，主流技术通常依赖现有形状作为约束条件，并引入帧间注意力机制来确保纹理一致性。然而，这种形状约束往往会限制视频的风格化几何变形，无意中忽略了原始的纹理特征。此外，现有方法还存在画面闪烁和面部表情不一致的问题。在本文中，我们提出了DiffPortraitVideo框架。该框架采用基于扩散模型的特征和注意力注入机制来生成关键帧，通过跨帧约束来强化连贯性，并通过自适应特征融合来确保表情的一致性。我们的方法在保持文本和原始图像特性的同时，实现了高时空一致性和表情一致性。我们进行了广泛而全面的实验，验证了所提出框架在生成个性化、高质量、连贯视频方面的有效性。这不仅展示了我们方法相较于现有方法的优越性，也为文本到视频生成领域的进一步研究和开发奠定了基础，提升了个性化的程度和质量。

引言

在当今的数字时代，短视频已成为各种平台上非常受欢迎的娱乐形式。人们不断创建、分享和观看短视频，这凸显了视频编辑和艺术增强的重要性。为了提高视频内容的视觉吸引力和趣味性，人们付出了大量努力。在图像编辑方面，通过使用不同的模型[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]，取得了显著进展。然而，视频处理本身也带来了一系列复杂的挑战。保持自然的运动效果并确保多帧之间的时间连贯性需要大量的工作。过去，如果想要保证视频中的动作流畅且连贯，有两种常见的但相对繁琐的方法：第一种方法是在大型数据集上训练复杂的模型[11]、[12]、[13]、[14]、[15]，这一过程需要大量的计算资源和时间；而且收集和准备这些大型数据集也并非易事。第二种方法是为特定视频微调基于图像的模型[16]、[17]、[18]、[19]，但这同样存在缺点，既耗时又需要一定的技术专长，且在人力和计算成本方面往往较高，对于只想快速提升视频质量的普通用户来说并不实用。另一方面，零样本方法[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]提供了一种更有前景且高效的解决方案。这些方法将时间一致性约束直接集成到图像模型的推理阶段，从而有效克服了传统方法的局限性，使用户能够以更便捷、更实用的方式处理视频，而无需面对传统方法带来的复杂性和成本问题。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号