利用加权注意力网络和多尺度特征集成技术提升人群计数能力
《Image and Vision Computing》:Enhanced crowd counting with weighted attention network and multi-scale feature integration
【字体:
大
中
小
】
时间:2025年10月09日
来源:Image and Vision Computing 4.2
编辑推荐:
加权注意力聚焦网络(WAFNet)通过权重图解耦图像与密度图映射,提出两阶段模型结合低分辨率特征增强模块,解决密集遮挡和尺度变化问题。实验表明其在多数据集上显著提升计数精度。
周立芳|胡振
重庆计算机科学与技术学院(国家级示范软件学院),中国重庆400065
摘要
人群计数在计算机视觉领域扮演着至关重要的角色,特别是在交通监控等实际应用中。然而,当前用于建立原始图像与密度图之间映射的方法不仅容易过拟合,而且在拥挤场景中还存在遮挡和尺度变化的问题。在本文中,我们提出了一种新颖的加权注意力聚焦网络(WAFNet),通过解耦图像-密度映射来提高人群计数的性能。我们的方法首先采用两阶段模型分离图像密度图,然后引入由前端网络生成的权重图来解决尺度变化问题。此外,我们还结合了多层特征编译模块(MLFCM)以更好地保留和融合来自多层的特征,并采用了低分辨率特征增强模块(LRFEM)来增强人群的低分辨率特征。在六个基准人群计数数据集上的实验表明,我们的方法在密集和遮挡场景中取得了更好的性能。
引言
人群计数旨在统计给定帧中的个体数量,这对于交通监控、社区事件管理和公共安全监控等多种实际应用至关重要。然而,由于人群密度不均匀、个体之间的遮挡以及尺度变化等因素,这仍然是一个重大挑战。
早期的工作尝试通过检测图像中的每个个体来估计人数。然而,在人口密集的场景中,由于遮挡和杂乱,准确识别每个人都很困难。为了解决这个问题,Lempitsky等人[1]提出了一种生成密度图的方法,通过累加密度图中的像素值来获得人数。尽管如此,现有方法在训练阶段仍然容易过拟合。此外,尽管基于密度图的方法取得了显著进展,许多研究人员仍然专注于建立原始图像与训练数据之间的稳健映射关系。这有两个主要原因:一方面,人工标注者很难一致地确定每个目标的确切中心,这不可避免地会导致数据集中的密度图出现错误;另一方面,许多现有模型主要关注建立图像与密度图之间的相关性,这可能导致训练过程中的过拟合。最近,越来越多的研究人员正在探索表示人群分布和定位的各种方法,并制定了相应的标准来评估这些方法的有效性。近年来,已经提出了一些基于多任务的方法来应对这些挑战。一种可行的策略是将掩码图作为模型的生成目标之一。掩码图可以预先捕获上下文信息,从而为密度图的生成提供参考或帮助。然而,这种方法遇到了两个主要问题:(1)如何设计掩码图——一些研究表明注意力图可以作为掩码图,而其他研究则认为概率图可能是更好的选择;(2)如何利用掩码图——一些研究使用相同的网络结构进行特征提取以生成掩码图,但它们忽略了掩码图与密度图之间的差异。相比之下,其他研究将掩码图视为连接原始图像和密度图的桥梁。受先前研究的启发,我们提出了一种超越传统密度图输出的网络结构。我们的网络不仅可以生成初步的人群分割特征图以区分人和噪声背景,还可以改进这一过程以生成更准确的密度图。在这个过程中,我们创新性地引入了权重图作为两个阶段之间的桥梁。此外,我们设计了一个低分辨率特征增强模块来放大小尺度特征,以解决严重遮挡的问题。与人群计数类似,图像分割也旨在区分图像中的不同类型对象。因此,我们采用了多层特征编译模块[2]来有效整合来自深层和浅层特征,这对于生成精确的权重图非常有益。我们的贡献总结如下:
- 1.
我们引入了权重图作为一种创新的桥梁,可以突出每个个体,并为生成精细的密度图提供更好的指导
- 2.
考虑到密集人群中的模糊和遮挡问题,我们设计了一个低分辨率特征增强模块来解决严重的遮挡问题。
- 3.
我们微调了多层特征编译模块,以有效融合多层特征。
相关研究
基于密度图的方法
这些方法的目标是在原始图像和密度图之间建立对应关系。网络处理图像并生成密度图,而不需要其他辅助数据。例如,MCNN [3] 使用不同大小的卷积核来捕获多人群信息。CSRNet [4] 使用膨胀核来扩大接收范围并替代池化操作。BL [5] 提出了贝叶斯损失,用于构建密度图
提出的方法
WAFNet 包含两个主要子网络:权重图生成网络(WGN)和密度图回归网络(DRN)。WGN 捕获图像特征并生成初始权重图,然后由 DRN 在后续阶段使用该权重图来细化密度图。
实验
在本节中,我们通过这些典型的数据集进行了广泛的测试:ShanghaiTech [3]、UCF_CC_50 [28]、UCF-QNRF [29]、JUH-Corwd [30] 和 NWPU-Crowd [31]。首先,我们描述了用于评估实验性能的标准。然后,我们详细介绍了网络的实验设置。此外,我们解释了数据集和目标真实值的生成方法。最后,我们通过消融实验探讨了特定模块在模型中的效果
结论
在本文中,我们提出了一种创新的加权注意力聚焦网络(WAFNet),以提高人群计数任务的性能,特别是在密集和遮挡场景中。通过引入权重图作为中间表示,我们的网络能够更有效地将图像与密度图解耦,从而有助于增强低分辨率特征的处理和多尺度信息的融合。广泛的实验证明了我们提出方法的优势
CRediT 作者贡献声明
周立芳:撰写 – 审稿与编辑、监督、项目管理、资金获取。胡振:撰写 – 原稿撰写、可视化、验证、调查。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了国家自然科学基金(62276039和62331008)、贵州大学先进制造技术教育部重点实验室(KY[2022]376)以及湖北水电工程智能视觉监测重点实验室建设(2019ZYYD007)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号