MCIVA：一种多视图行人检测框架，采用中心逆最近邻映射（Central Inverse Nearest Neighbor Map）和视图自适应模块（View Adaptive Module）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：MCIVA: A Multi-View Pedestrian Detection Framework with Central Inverse Nearest Neighbor Map and View Adaptive Module

【字体：大中小】 时间：2026年01月14日 来源：Information Fusion 15.5

编辑推荐：

　　针对多视角行人检测中行人定位模糊、背景响应过高等问题，本文提出MCIVA框架，包含CINN地图增强定位精度、局部SSIM损失抑制背景虚假峰值，以及VAM模块自适应融合多视角特征，显著提升检测性能。

作者：李赫 | 廖泰宇 | 孔伟航 | 张星晨

中国秦皇岛燕山大学信息科学与工程学院，066004

摘要

多视图行人检测是一项重要的任务，在监控和智慧城市等领域有许多应用。尽管最近的多视图行人检测方法在性能上取得了显著提升，但这项任务仍面临三个主要挑战：1) 在拥挤区域，相邻的连通组件可能会在密集区域合并，导致每个行人的像素峰值定位不明确；2) 以往的多视图行人检测方法中使用的损失函数对背景的响应较强；3) 相机参数没有得到充分利用，它们仅用于生成固定值的投影矩阵。为了解决这些问题，我们提出了一个基于中心逆最近邻映射（CINN）和视图自适应模块（MCIVA）的新型多视图行人检测框架。引入CINN映射可以根据注释生成真实的概率占用图（POM），为每个行人提供更精确的位置信息。为了增强模型对局部结构信息的关注，我们提出了局部结构相似性损失，以减少背景区域中虚假局部最大值的影响。此外，我们还引入了一种新型的即插即用视图自适应模块（VAM），利用相机参数生成可学习的权重用于多视图特征融合。我们在三个基准数据集上评估了所提出的方法，结果表明MCIVA显著提高了预测图的质量，并达到了最先进的性能。

引言

随着计算机技术和智能算法的快速发展，计算机视觉技术在行人检测领域受到了广泛关注。尽管当前单视图行人检测在定位准确性和鲁棒性方面取得了显著进展[1],[2],[3],[4]，但在不同场景中，遮挡问题仍然是一个挑战。解决遮挡问题的一个主要方法是引入多个视图以更有效地识别被遮挡的物体。与单视图设置相比，多视图系统通过融合来自不同视图的信息来增强抗遮挡能力。多视图行人检测[5],[6],[7]利用从不同视图捕获的同步输入图像进行行人检测。

多视图行人检测中的一个重要步骤是实现准确的多视图特征融合[8],[9],[10]。为此，通常从多个校准过的相机捕获的同步图像中获取鸟瞰图（BEV）表示，然后用于检测场景中的行人。多视图行人检测通过预测概率占用图（POM）[11]来表示场景中所有个体的分布，其中连通组件被视为场景中行人的位置。POM的值表示每个位置的人的概率。以往的方法主要使用固定大小高斯核生成的POM作为监督数据进行多视图行人检测模型的训练（图1(c)）。然而，在拥挤区域，相邻的连通组件可能会合并，导致每个个体的像素峰值定位不明确（图1(c)，红色框及其放大区域）。换句话说，场景中多个附近的行人可能会被错误地预测为一个行人。因此，拥挤区域的高斯卷积图的不确定性限制了现有方法的性能。为了解决固定大小高斯核生成的POM的这一缺点，我们引入了中心逆最近邻（CINN）映射作为真实POM（图1(d)），为场景中的每个个体提供精确的位置信息。

此外，多视图行人检测模型通常使用预测POM与真实POM之间的像素级均方误差（MSE）损失进行训练。一些方法[12],[13]使用结构相似性指数（SSIM）损失来增强预测结果与真实值之间的相似性。通常，SSIM损失使用滑动窗口扫描整个预测POM，而不区分前景（行人位置区域）和背景。然而，在POM中，背景的像素值接近零，缺乏结构信息。全局SSIM损失可能会对背景产生较高的响应，因为背景区域的亮度和对比度变化通常很小，从而导致背景的相似性较高。这反过来可能导致虚假的局部最大值。此外，在训练阶段仅使用MSE损失进行监督可能会产生负面影响，如模糊和丢失局部结构信息。对于依赖检测局部最大值的多视图行人检测任务，模型应关注这些局部最大值。因此，我们引入了局部SSIM损失，进一步增强模型强化局部最大值的结构信息的能力，同时减少训练过程中背景中虚假局部最大值的出现。

此外，以往的多视图检测方法通常仅使用相机的内在和外在参数生成固定的投影矩阵进行透视变换。然而，在实践中，靠近相机的物体更容易被检测到，同一个物体在多个相机视图中的距离可能不同。由于从图像中提取的不同特征通道编码了与相机参数强相关的不同距离的物体信息，因此利用这些参数来增强图像特征是直观的。为了解决这个问题，我们提出了视图自适应模块（VAM），以提高模型在不同距离检测行人时的能力。VAM通过学习通道级掩码来评估和强调不同特征通道的相对重要性。

虽然我们组件中的一些核心思想受到了现有原理的启发，但我们的设计超出了简单的调整。具体来说，中心逆最近邻（CINN）映射与传统逆距离变换或最近邻表示有根本的不同。CINN不是从背景像素计算距离，而是从标注的行人中心建立集中式的逆映射，有效地保持了拥挤区域的空间精度，并消除了密集POM监督中常见的高斯核重叠问题。所提出的局部结构相似性（L-SSIM）损失也与之前用于图像恢复或人群计数的基于SSIM的损失不同。与全局SSIM不同，L-SSIM在局部以行人为中心的区域内进行相似性计算，提供细粒度的结构监督，增强有意义的局部响应并抑制背景中的虚假局部最大值。最后，视图自适应模块（VAM）引入了一种将相机参数纳入注意力机制的新方法。与仅依赖视觉特征的一般通道注意力机制不同，我们的VAM利用内在和外在相机参数作为几何条件，通过MLP生成自适应的通道权重。这种显式的几何条件使模型能够根据相机姿态和布局自适应地重新加权特征通道，实现真正的视图依赖特征适应。这三个模块共同构成了一个连贯且创新的框架，桥接了几何推理和视觉注意力，为多视图行人检测提供了原理性的解决方案，解决了密集场景、背景干扰和相机参数利用不足的问题。

基于上述分析，我们设计了一个基于中心逆最近邻映射和视图自适应模块（MCIVA）的新型多视图行人检测框架。开发的MCIVA显著提高了预测POM的质量，并达到了最先进的性能。本研究的主要贡献如下：

•
我们引入了中心逆最近邻（CINN）映射，以替代使用固定大小高斯核卷积生成的概率占用图，为每个个体提供精确的位置信息。
•
我们提出了局部结构相似性（L-SSIM）损失，进一步增强了模型放大局部最大值结构信息的能力，同时减少了背景中虚假局部最大值的出现。
•
我们设计了视图自适应模块（VAM），通过学习通道级掩码来评估不同通道之间的重要性，提高了模型在不同距离检测行人时的能力。
•
我们提出了一种基于上述三个组件的新型方法MCIVA，用于行人检测任务。在三个数据集上的广泛定性和定量实验证明了所提方法的有效性。

部分摘录

多视图行人检测

由于单视图方法[14],[15],[16]在遮挡场景中的局限性，多视图系统[17],[18],[19]已被广泛用于解决严重遮挡环境中的行人检测挑战。为了整合不同视图的信息，研究人员采用了平均场推理[11],[20]和条件随机场[20]来组合单视图检测的结果。然而，这些方法通常需要额外的计算资源或特定条件

提出的方法

在本节中，我们首先概述所提出的方法，然后介绍该方法的不同组成部分。

实现细节

遵循MVDet的方法，所提出的模型使用ResNet进行多视图特征提取。我们首先将所有相机的输入图像从1920×1080下采样到1280×720，以便同时处理所有图像。所有数据集的映射分类阈值为0.4。学习率和权重衰减分别设置为5e-4和1e-4。所有训练和测试都在两块Nvidia GTX 4090 GPU上进行，批量大小为1。此外，参数α、β和λ分别为

伦理和实际考虑

由于这项工作的动机在于监控和智能交通应用，因此伦理和隐私考虑至关重要。尽管所提出的MCIVA框架仅处理来自固定相机的视觉数据，不涉及个人身份识别，但其在实际应用中必须遵守数据保护法规。具体来说，数据收集和使用应确保匿名性，避免存储或处理可识别个人身份的信息

结论

本研究提出了一种名为MCIVA的新型多视图行人检测框架。所提出的方法解决了现有方法中的三个问题：每个行人的像素峰值定位不明确、由于全局SSIM损失对背景的响应较强以及相机参数利用不足。我们提出了三种解决方案来解决这些问题，即中心逆最近邻（CINN）映射、局部SSIM损失和视图自适应模块（VAM）。我们对其进行了评估

CRediT作者贡献声明

李赫：撰写 - 审稿与编辑、监督、项目管理、资金获取、正式分析、概念化。廖泰宇：可视化、验证、方法论、调查、数据管理、概念化。孔伟航：监督、资源管理、项目管理、资金获取、正式分析。张星晨：撰写 - 审稿与编辑、监督、项目管理、正式分析。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系，这些利益或关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号