基于区域自注意力扩散模型的目标检测生成式数据增强方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月15日 来源：Neurocomputing 6.5

编辑推荐：

　　本文推荐：该研究提出RegionDiffusion模型，通过区域自注意力（Region Self-Attention）和面积加权损失（Area-based Loss Re-weighting）解决布局到图像（layout-to-image）生成中的实例融合与定位偏差问题，并设计包含前过滤（Front Filter）和后过滤（Post Filter）的增强流程，显著提升目标检测器在通用域（如COCO）和特定域（如Clipart）的性能，实验显示AP最高提升18.2%。

亮点

• 我们提出RegionDiffusion——一种具有卓越生成和零样本（zero-shot）能力的新型布局到图像模型。

• 开发了针对目标检测的生成式数据增强全流程，显著提升通用域和特定域检测器性能。

• 通过大量实验验证模型优越性，消融研究证实各组件有效性。

扩散模型

扩散模型（Diffusion Models）凭借强大的生成能力成为生成式AI主流方法，通过前向扩散和反向去噪过程生成高质量图像。潜在扩散模型（LDMs）将过程转移到潜在空间提升效率。

RegionDiffusion

本模型包含三大核心：

1.
布局分词器（Layout Tokenizer）：通过可训练位置编码避免同类实例重叠融合，引入背景标记生成纯净背景。
2.
区域自注意力：依据边界框将视觉标记分区，实现精确定位生成。
3.
面积加权损失：通过面积掩膜调整损失权重，改善小目标生成。

生成式数据增强流程

1.
前过滤：基于NMS去除高重叠标注框，降低布局复杂度。
2.
领域感知提示：融合物体类别、场景描述和数据集特征，确保生成数据符合领域特性。
3.
后过滤：利用CLIP筛除低质量实例，消除误导性标注。

实验

从保真度（生成质量）、零样本（跨域迁移）和可训练性（检测器提升）三方面评估：

• 在COCO上使YOLOv8提升6.1% AP，下游任务最高提升18.2% AP。

• 消融实验显示区域自注意力对小目标生成效果提升显著。

结论

RegionDiffusion通过创新性区域划分和损失加权机制，解决了生成数据与标注不匹配的关键问题，为数据稀缺场景下的目标检测提供了高效解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号