ITGO：基于想象文本引导的图像外绘通用框架——突破语义一致性的多模态融合新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年11月02日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文提出了一种创新的图像外绘（Image Outpainting）框架ITGO，通过融合多模态大语言模型（MLLM）与双UNet扩散模型，解决了现有方法缺乏文本引导和语义一致性的难题。该研究采用混合数据增强和专家混合（MoE）模块训练专用MLLM生成外绘区域文本提示，并通过双UNet架构分离图像与文本条件处理，在多个数据集上实现性能突破，为多模态生成模型提供了新范式。

Highlight

• 提出全新全自动文本引导图像外绘方法ITGO，核心在于融合多模态大语言模型（MLLM）与扩散模型，为外绘过程引入文本引导，生成视觉连贯且美学愉悦的图像。

• 提出混合数据增强策略并开发集成局部与全局特征的专家混合（MoE）模块，共同训练出能根据子图像生成扩展区域文本信息的专用MLLM。

• 提出将子图像特征和文本条件分别注入双生UNet的策略，确保原始图像信息充分利用，同时防止单一模态条件过度主导去噪过程。

• 综合实验表明专用MLLM的实用性，证明本方法优于当前最优外绘技术，并展现卓越泛化能力。

Multimodal Large Language Model

多模态大语言模型是人工智能研究的前沿领域，旨在整合文本、图像、音频等多模态信息。这些模型通过融合多种数据类型扩展了单模态语言模型的能力，实现了更复杂、情境感知的应用。当前，

Overall Framework

图2展示了本方法的整体框架，主要包括两部分：其一是经过重新训练的多模态大语言模型（详见图3），能够基于原始图像生成合理的外绘描述；其二是潜在扩散模型，接收子图像及对应描述生成外推区域。双UNet架构实现了文本与图像条件的分离。对比我们的

Experimental setting

实施细节

我们的MLLM和外绘LDM均在BrushData数据集上训练。BrushData包含约600万张图像及每张图像中实例的边界框坐标，训练时无需额外检测器即可直接使用。类似先前工作，我们采用BLIP2为图像生成描述。MLLM

Why ITGO outperforms

文本条件引导

当前基于扩散模型的最优外绘方法多采用预训练文本-图像模型，但生成时丢弃文本条件导致性能下降。相比之下，ITGO通过专用MLLM生成合理外绘提示，使文本-图像模型发挥最佳生成性能，产出更美学愉悦的结果。

有效

Conclusion

本工作通过实验结果证明了文本提示在图像外绘任务中的重要性。为此，我们提出ITGO——融合多模态大语言模型与外绘扩散模型的新框架。通过混合数据增强和专家混合模块改进MLLM训练，使其生成更适合外绘的文本提示。此外，我们将文本提示和图像特征分别注入

热点排行

新闻专题

联系信箱：

粤ICP备09063491号