随着计算机技术和智能算法的快速发展,计算机视觉技术在行人检测领域受到了广泛关注。尽管当前单视图行人检测在定位准确性和鲁棒性方面取得了显著进展[1],[2],[3],[4],但在不同场景中,遮挡问题仍然是一个挑战。解决遮挡问题的一个主要方法是引入多个视图以更有效地识别被遮挡的物体。与单视图设置相比,多视图系统通过融合来自不同视图的信息来增强抗遮挡能力。多视图行人检测[5],[6],[7]利用从不同视图捕获的同步输入图像进行行人检测。
多视图行人检测中的一个重要步骤是实现准确的多视图特征融合[8],[9],[10]。为此,通常从多个校准过的相机捕获的同步图像中获取鸟瞰图(BEV)表示,然后用于检测场景中的行人。多视图行人检测通过预测概率占用图(POM)[11]来表示场景中所有个体的分布,其中连通组件被视为场景中行人的位置。POM的值表示每个位置的人的概率。以往的方法主要使用固定大小高斯核生成的POM作为监督数据进行多视图行人检测模型的训练(图1(c))。然而,在拥挤区域,相邻的连通组件可能会合并,导致每个个体的像素峰值定位不明确(图1(c),红色框及其放大区域)。换句话说,场景中多个附近的行人可能会被错误地预测为一个行人。因此,拥挤区域的高斯卷积图的不确定性限制了现有方法的性能。为了解决固定大小高斯核生成的POM的这一缺点,我们引入了中心逆最近邻(CINN)映射作为真实POM(图1(d)),为场景中的每个个体提供精确的位置信息。
此外,多视图行人检测模型通常使用预测POM与真实POM之间的像素级均方误差(MSE)损失进行训练。一些方法[12],[13]使用结构相似性指数(SSIM)损失来增强预测结果与真实值之间的相似性。通常,SSIM损失使用滑动窗口扫描整个预测POM,而不区分前景(行人位置区域)和背景。然而,在POM中,背景的像素值接近零,缺乏结构信息。全局SSIM损失可能会对背景产生较高的响应,因为背景区域的亮度和对比度变化通常很小,从而导致背景的相似性较高。这反过来可能导致虚假的局部最大值。此外,在训练阶段仅使用MSE损失进行监督可能会产生负面影响,如模糊和丢失局部结构信息。对于依赖检测局部最大值的多视图行人检测任务,模型应关注这些局部最大值。因此,我们引入了局部SSIM损失,进一步增强模型强化局部最大值的结构信息的能力,同时减少训练过程中背景中虚假局部最大值的出现。
此外,以往的多视图检测方法通常仅使用相机的内在和外在参数生成固定的投影矩阵进行透视变换。然而,在实践中,靠近相机的物体更容易被检测到,同一个物体在多个相机视图中的距离可能不同。由于从图像中提取的不同特征通道编码了与相机参数强相关的不同距离的物体信息,因此利用这些参数来增强图像特征是直观的。为了解决这个问题,我们提出了视图自适应模块(VAM),以提高模型在不同距离检测行人时的能力。VAM通过学习通道级掩码来评估和强调不同特征通道的相对重要性。
虽然我们组件中的一些核心思想受到了现有原理的启发,但我们的设计超出了简单的调整。具体来说,中心逆最近邻(CINN)映射与传统逆距离变换或最近邻表示有根本的不同。CINN不是从背景像素计算距离,而是从标注的行人中心建立集中式的逆映射,有效地保持了拥挤区域的空间精度,并消除了密集POM监督中常见的高斯核重叠问题。所提出的局部结构相似性(L-SSIM)损失也与之前用于图像恢复或人群计数的基于SSIM的损失不同。与全局SSIM不同,L-SSIM在局部以行人为中心的区域内进行相似性计算,提供细粒度的结构监督,增强有意义的局部响应并抑制背景中的虚假局部最大值。最后,视图自适应模块(VAM)引入了一种将相机参数纳入注意力机制的新方法。与仅依赖视觉特征的一般通道注意力机制不同,我们的VAM利用内在和外在相机参数作为几何条件,通过MLP生成自适应的通道权重。这种显式的几何条件使模型能够根据相机姿态和布局自适应地重新加权特征通道,实现真正的视图依赖特征适应。这三个模块共同构成了一个连贯且创新的框架,桥接了几何推理和视觉注意力,为多视图行人检测提供了原理性的解决方案,解决了密集场景、背景干扰和相机参数利用不足的问题。
基于上述分析,我们设计了一个基于中心逆最近邻映射和视图自适应模块(MCIVA)的新型多视图行人检测框架。开发的MCIVA显著提高了预测POM的质量,并达到了最先进的性能。本研究的主要贡献如下:
- •
我们引入了中心逆最近邻(CINN)映射,以替代使用固定大小高斯核卷积生成的概率占用图,为每个个体提供精确的位置信息。
- •
我们提出了局部结构相似性(L-SSIM)损失,进一步增强了模型放大局部最大值结构信息的能力,同时减少了背景中虚假局部最大值的出现。
- •
我们设计了视图自适应模块(VAM),通过学习通道级掩码来评估不同通道之间的重要性,提高了模型在不同距离检测行人时的能力。
- •
我们提出了一种基于上述三个组件的新型方法MCIVA,用于行人检测任务。在三个数据集上的广泛定性和定量实验证明了所提方法的有效性。