视频胜过千张图片:探索长视频制作的最新趋势

《ACM Computing Surveys》:Video is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation

【字体: 时间:2025年11月08日 来源:ACM Computing Surveys

编辑推荐:

  当前长视频生成面临时空连续性、叙事规划等挑战,需结合分治策略与大语言模型突破分钟级限制,综述系统梳理了GANs、扩散模型等技术,探讨大规模数据集、评估指标及未来研究方向,为生成更长的可控视频提供基础。

  

摘要

一张图片可能胜过千言万语,但一个由数百或数千帧图像组成的视频能够讲述更为复杂的故事。尽管在多模态大语言模型(MLLMs)方面取得了显著进展,生成较长视频仍然是一个巨大的挑战。截至本文撰写时,OpenAI的Sora [1]——当前最先进的系统——仍然只能生成长度不超过一分钟的视频。这一限制源于长视频生成的复杂性,这需要不仅仅是生成式AI技术来近似密度函数。诸如规划、叙事构建以及时空连续性等关键要素都带来了重大挑战。将生成式AI与分而治之的方法相结合,可以提高生成较长视频的可扩展性,并提供更大的控制能力。在这篇综述中,我们探讨了当前长视频生成的技术现状,涵盖了GANs和扩散模型等基础技术、视频生成策略、大规模训练数据集、用于评估长视频的质量指标,以及为解决现有视频生成能力局限性而需要研究的未来方向。我们认为这将为该领域未来的发展提供全面的基础,为相关研究和进步提供丰富的信息。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号