多模态生成式AI：多模态大语言模型、扩散模型及其统一性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems for Video Technology》：Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification

【字体：大中小】 时间：2025年11月22日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　本文系统综述多模态生成AI领域，涵盖多模态LLMs与扩散模型的技术框架，探讨自回归与扩散模型在统一架构中的设计策略，分析MoE等架构的优劣，并总结CLIP、Flamingo等常用预训练数据集，最后提出跨模态理解、生成效率优化及动态架构设计等未来研究方向。

摘要：

多模态生成式人工智能（AI）日益受到学术界和工业界的关注。特别是，出现了两大主要技术流派：i) 多模态大型语言模型（LLMs）在多模态理解方面表现出色；ii) 扩散模型在多模态生成方面具有显著的能力。因此，本文全面概述了多模态生成式AI，包括多模态LLMs、扩散模型以及用于理解和生成的统一模型。为了为统一模型奠定坚实的基础，我们首先分别详细回顾了多模态LLMs和扩散模型，包括它们的概率建模过程、多模态架构设计，以及它们在图像/视频LLMs和文本到图像/视频生成中的高级应用。此外，我们还探讨了面向理解和生成的统一模型的新兴研究方向。为了实现理解和生成的统一，我们研究了基于自回归和基于扩散的建模方法，以及密集架构和专家混合（MoE）架构。接着，我们介绍了几种统一模型的策略，并分析了它们的潜在优势和劣势。另外，我们总结了广泛用于多模态生成式AI预训练的常用数据集。最后，我们提出了几个具有挑战性的未来研究方向，这些方向可能有助于推动多模态生成式AI的持续发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号