TDtoon:通过草图增强实现可控卡通视频生成的两阶段扩散技术

《Displays》:TDtoon: Two-stage diffusion for controllable cartoon video generation via sketch enhancement

【字体: 时间:2025年11月01日 来源:Displays 3.4

编辑推荐:

  本文提出基于两阶段扩散模型的可控卡通视频生成框架TDtoon,通过草图增强模块将用户提供的抽象草图转化为结构合理、细节丰富的中间帧草图,并结合起始和结束帧生成完整动画序列。实验表明该方法显著降低运动伪影,提升细节精度,并有效整合抽象草图控制,适用于复杂动画场景。

  在当前的卡通动画生成领域,传统的方法往往依赖于高质量的像素级对齐的草图,这种严格的要求显著限制了其在实际应用中的灵活性。为了解决这一问题,研究者们提出了TDtoon这一可控的卡通视频生成框架,它基于两阶段扩散模型,旨在通过用户提供抽象且可能不完整的草图,生成合理的中间帧。该方法不仅提升了生成视频的质量,还增强了对用户输入的控制能力,从而显著提高了卡通动画制作的效率。

TDtoon的创新点在于其将生成过程分为两个阶段:草图增强和动画视频合成。在第一阶段,草图增强模型通过结构信息和草图先验知识对输入的草图进行优化,从而生成结构合理且细节丰富的中间帧草图。这一过程有效地解决了现有方法对草图质量要求过高的问题,使得艺术家能够更加自由地进行创作,而无需耗费大量时间去精修草图。在第二阶段,生成的增强草图与起始和结束帧共同作为输入,引导视频生成模型合成具有时间连续性和视觉吸引力的动画序列。

为了提升模型对抽象草图的适应性,TDtoon引入了一种基于草图简化的数据增强策略。这种方法模拟了用户提供的抽象草图,使模型能够更好地理解这些草图中的语义和结构信息。此外,TDtoon还设计了一种轻量级的嵌入机制,通过零卷积层来整合用户草图,从而减少噪声或不一致输入对模型性能的影响。

在实验部分,研究者们构建了一个专门用于卡通动画生成的视频数据集TDV,并使用AniSora生成了额外的测试集。这些数据集被用于评估模型的性能,其中包括多种视频质量评估指标,如Fréchet Video Distance(FVD)、结构相似性指数(SSIM)、CLIP图像相似性、峰值信噪比(PSNR)和学习感知图像块相似性(LPIPS)。这些指标从分布相似性、语义对齐、结构保真度和感知现实等多个角度评估视频质量。

此外,研究者们还进行了消融实验,分析了模型中各个组件的贡献。结果显示,每个组件都对整体性能产生了积极影响,尤其是草图增强模块(SE)在结构保真度和感知相似性方面表现突出,数据增强(DA)策略增强了模型对多样草图输入的鲁棒性,而抽象草图拼接(ASC)模块则实现了用户草图的高效整合,几乎不增加计算成本,从而显著提升了控制能力。

用户研究进一步验证了TDtoon的优越性,结果显示该方法在时间连续性、标签保真度和帧质量三个维度均优于其他方法。这一研究不仅展示了TDtoon在技术上的优势,也体现了其在实际应用中的潜力。

综上所述,TDtoon通过其两阶段设计,有效解决了现有方法在处理抽象草图时的局限性,提升了生成视频的质量和可控性,为卡通动画制作提供了更高效、更灵活的解决方案。未来的工作将进一步增强模型对低质量或高度扭曲草图的鲁棒性,并扩展研究到更大、更多样化的数据集,以提升模型在不同艺术风格中的泛化能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号