基于大语言模型与扩散模型的图像增强代理在弱监督语义分割中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月25日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出了一种创新的图像增强代理（IAA）框架，通过整合大语言模型（LLMs）和扩散模型（Diffusion Models），为弱监督语义分割（WSSS）自动生成多样化且语义一致的训练数据。其核心突破在于设计了提示词自优化机制和动态过滤器，显著提升了PASCAL VOC 2012和MS COCO 2014数据集的性能表现，为突破传统WSSS方法依赖固定数据集的瓶颈提供了新思路。

Highlight

弱监督语义分割（WSSS）仅需图像级标注即可实现像素级分割，但其性能受限于有限的数据多样性。传统方法聚焦于改进类激活图（CAMs）生成网络，而本文独辟蹊径，从数据增强维度突破瓶颈。

Methodology

我们的图像增强代理（IAA）构建了智能生成流水线：

1.
提示词工程师：基于GPT的提示词自优化机制，通过语义重评估生成高一致性文本指令
2.
扩散魔术师：搭载ControlNet的扩散模型实时生成图像，并植入动态过滤器保障质量均衡
3.
数据炼金术：合成图像与原始数据协同训练，显著提升模型对复杂语义模式的理解力

Experiments

在PASCAL VOC 2012和MS COCO 2014基准测试中，IAA的mIoU指标分别提升2.3%和1.8%。消融实验证实：

•
自优化机制使提示词相关性提升37%
•
动态过滤器减少无效图像生成达42%

Conclusion

本研究证明，通过LLMs与扩散模型的协同创新，能有效突破WSSS的数据天花板。这种"数据-centric"的新范式，为医疗影像分割等标注成本高的领域提供了可扩展解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号