
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于区域自注意力扩散模型的目标检测生成式数据增强方法
【字体: 大 中 小 】 时间:2025年08月15日 来源:Neurocomputing 6.5
编辑推荐:
本文推荐:该研究提出RegionDiffusion模型,通过区域自注意力(Region Self-Attention)和面积加权损失(Area-based Loss Re-weighting)解决布局到图像(layout-to-image)生成中的实例融合与定位偏差问题,并设计包含前过滤(Front Filter)和后过滤(Post Filter)的增强流程,显著提升目标检测器在通用域(如COCO)和特定域(如Clipart)的性能,实验显示AP最高提升18.2%。
亮点
• 我们提出RegionDiffusion——一种具有卓越生成和零样本(zero-shot)能力的新型布局到图像模型。
• 开发了针对目标检测的生成式数据增强全流程,显著提升通用域和特定域检测器性能。
• 通过大量实验验证模型优越性,消融研究证实各组件有效性。
扩散模型
扩散模型(Diffusion Models)凭借强大的生成能力成为生成式AI主流方法,通过前向扩散和反向去噪过程生成高质量图像。潜在扩散模型(LDMs)将过程转移到潜在空间提升效率。
RegionDiffusion
本模型包含三大核心:
布局分词器(Layout Tokenizer):通过可训练位置编码避免同类实例重叠融合,引入背景标记生成纯净背景。
区域自注意力:依据边界框将视觉标记分区,实现精确定位生成。
面积加权损失:通过面积掩膜调整损失权重,改善小目标生成。
生成式数据增强流程
前过滤:基于NMS去除高重叠标注框,降低布局复杂度。
领域感知提示:融合物体类别、场景描述和数据集特征,确保生成数据符合领域特性。
后过滤:利用CLIP筛除低质量实例,消除误导性标注。
实验
从保真度(生成质量)、零样本(跨域迁移)和可训练性(检测器提升)三方面评估:
• 在COCO上使YOLOv8提升6.1% AP,下游任务最高提升18.2% AP。
• 消融实验显示区域自注意力对小目标生成效果提升显著。
结论
RegionDiffusion通过创新性区域划分和损失加权机制,解决了生成数据与标注不匹配的关键问题,为数据稀缺场景下的目标检测提供了高效解决方案。
生物通微信公众号
知名企业招聘