ITGO:基于想象文本引导的图像外绘通用框架——突破语义一致性的多模态融合新方法

【字体: 时间:2025年11月02日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出了一种创新的图像外绘(Image Outpainting)框架ITGO,通过融合多模态大语言模型(MLLM)与双UNet扩散模型,解决了现有方法缺乏文本引导和语义一致性的难题。该研究采用混合数据增强和专家混合(MoE)模块训练专用MLLM生成外绘区域文本提示,并通过双UNet架构分离图像与文本条件处理,在多个数据集上实现性能突破,为多模态生成模型提供了新范式。

  
Highlight
• 提出全新全自动文本引导图像外绘方法ITGO,核心在于融合多模态大语言模型(MLLM)与扩散模型,为外绘过程引入文本引导,生成视觉连贯且美学愉悦的图像。
• 提出混合数据增强策略并开发集成局部与全局特征的专家混合(MoE)模块,共同训练出能根据子图像生成扩展区域文本信息的专用MLLM。
• 提出将子图像特征和文本条件分别注入双生UNet的策略,确保原始图像信息充分利用,同时防止单一模态条件过度主导去噪过程。
• 综合实验表明专用MLLM的实用性,证明本方法优于当前最优外绘技术,并展现卓越泛化能力。
Multimodal Large Language Model
多模态大语言模型是人工智能研究的前沿领域,旨在整合文本、图像、音频等多模态信息。这些模型通过融合多种数据类型扩展了单模态语言模型的能力,实现了更复杂、情境感知的应用。当前,
Overall Framework
图2展示了本方法的整体框架,主要包括两部分:其一是经过重新训练的多模态大语言模型(详见图3),能够基于原始图像生成合理的外绘描述;其二是潜在扩散模型,接收子图像及对应描述生成外推区域。双UNet架构实现了文本与图像条件的分离。对比我们的
Experimental setting
实施细节
我们的MLLM和外绘LDM均在BrushData数据集上训练。BrushData包含约600万张图像及每张图像中实例的边界框坐标,训练时无需额外检测器即可直接使用。类似先前工作,我们采用BLIP2为图像生成描述。MLLM
Why ITGO outperforms
文本条件引导
当前基于扩散模型的最优外绘方法多采用预训练文本-图像模型,但生成时丢弃文本条件导致性能下降。相比之下,ITGO通过专用MLLM生成合理外绘提示,使文本-图像模型发挥最佳生成性能,产出更美学愉悦的结果。
有效
Conclusion
本工作通过实验结果证明了文本提示在图像外绘任务中的重要性。为此,我们提出ITGO——融合多模态大语言模型与外绘扩散模型的新框架。通过混合数据增强和专家混合模块改进MLLM训练,使其生成更适合外绘的文本提示。此外,我们将文本提示和图像特征分别注入
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号