ITGO:基于想象文本引导的图像外绘通用框架——突破语义一致性的多模态融合新方法
【字体:
大
中
小
】
时间:2025年11月02日
来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出了一种创新的图像外绘(Image Outpainting)框架ITGO,通过融合多模态大语言模型(MLLM)与双UNet扩散模型,解决了现有方法缺乏文本引导和语义一致性的难题。该研究采用混合数据增强和专家混合(MoE)模块训练专用MLLM生成外绘区域文本提示,并通过双UNet架构分离图像与文本条件处理,在多个数据集上实现性能突破,为多模态生成模型提供了新范式。
• 提出全新全自动文本引导图像外绘方法ITGO,核心在于融合多模态大语言模型(MLLM)与扩散模型,为外绘过程引入文本引导,生成视觉连贯且美学愉悦的图像。
• 提出混合数据增强策略并开发集成局部与全局特征的专家混合(MoE)模块,共同训练出能根据子图像生成扩展区域文本信息的专用MLLM。
• 提出将子图像特征和文本条件分别注入双生UNet的策略,确保原始图像信息充分利用,同时防止单一模态条件过度主导去噪过程。
• 综合实验表明专用MLLM的实用性,证明本方法优于当前最优外绘技术,并展现卓越泛化能力。
Multimodal Large Language Model
多模态大语言模型是人工智能研究的前沿领域,旨在整合文本、图像、音频等多模态信息。这些模型通过融合多种数据类型扩展了单模态语言模型的能力,实现了更复杂、情境感知的应用。当前,
图2展示了本方法的整体框架,主要包括两部分:其一是经过重新训练的多模态大语言模型(详见图3),能够基于原始图像生成合理的外绘描述;其二是潜在扩散模型,接收子图像及对应描述生成外推区域。双UNet架构实现了文本与图像条件的分离。对比我们的
我们的MLLM和外绘LDM均在BrushData数据集上训练。BrushData包含约600万张图像及每张图像中实例的边界框坐标,训练时无需额外检测器即可直接使用。类似先前工作,我们采用BLIP2为图像生成描述。MLLM
当前基于扩散模型的最优外绘方法多采用预训练文本-图像模型,但生成时丢弃文本条件导致性能下降。相比之下,ITGO通过专用MLLM生成合理外绘提示,使文本-图像模型发挥最佳生成性能,产出更美学愉悦的结果。
本工作通过实验结果证明了文本提示在图像外绘任务中的重要性。为此,我们提出ITGO——融合多模态大语言模型与外绘扩散模型的新框架。通过混合数据增强和专家混合模块改进MLLM训练,使其生成更适合外绘的文本提示。此外,我们将文本提示和图像特征分别注入
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号