基于区域自注意力扩散模型的目标检测生成式数据增强方法

【字体: 时间:2025年08月15日 来源:Neurocomputing 6.5

编辑推荐:

  本文推荐:该研究提出RegionDiffusion模型,通过区域自注意力(Region Self-Attention)和面积加权损失(Area-based Loss Re-weighting)解决布局到图像(layout-to-image)生成中的实例融合与定位偏差问题,并设计包含前过滤(Front Filter)和后过滤(Post Filter)的增强流程,显著提升目标检测器在通用域(如COCO)和特定域(如Clipart)的性能,实验显示AP最高提升18.2%。

  

亮点

• 我们提出RegionDiffusion——一种具有卓越生成和零样本(zero-shot)能力的新型布局到图像模型。

• 开发了针对目标检测的生成式数据增强全流程,显著提升通用域和特定域检测器性能。

• 通过大量实验验证模型优越性,消融研究证实各组件有效性。

扩散模型

扩散模型(Diffusion Models)凭借强大的生成能力成为生成式AI主流方法,通过前向扩散和反向去噪过程生成高质量图像。潜在扩散模型(LDMs)将过程转移到潜在空间提升效率。

RegionDiffusion

本模型包含三大核心:

  1. 1.

    布局分词器(Layout Tokenizer):通过可训练位置编码避免同类实例重叠融合,引入背景标记生成纯净背景。

  2. 2.

    区域自注意力:依据边界框将视觉标记分区,实现精确定位生成。

  3. 3.

    面积加权损失:通过面积掩膜调整损失权重,改善小目标生成。

生成式数据增强流程

  1. 1.

    前过滤:基于NMS去除高重叠标注框,降低布局复杂度。

  2. 2.

    领域感知提示:融合物体类别、场景描述和数据集特征,确保生成数据符合领域特性。

  3. 3.

    后过滤:利用CLIP筛除低质量实例,消除误导性标注。

实验

保真度(生成质量)、零样本(跨域迁移)和可训练性(检测器提升)三方面评估:

• 在COCO上使YOLOv8提升6.1% AP,下游任务最高提升18.2% AP。

• 消融实验显示区域自注意力对小目标生成效果提升显著。

结论

RegionDiffusion通过创新性区域划分和损失加权机制,解决了生成数据与标注不匹配的关键问题,为数据稀缺场景下的目标检测提供了高效解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号