
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向密集人群的头部追踪:多源数据融合网络与大规模跨场景基准数据集
【字体: 大 中 小 】 时间:2025年06月12日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决高密度人群中行人头部检测与跟踪的难题(如类内遮挡、复杂运动等),武汉理工大学团队构建了首个中国大规模跨场景头部追踪数据集Cchead(含50,528帧/2,366,249个标注头部),并开发了多源数据融合网络MDFN。该网络通过融合RGB帧、光流、深度图等五源数据,在Cchead、CroHD等数据集上超越现有SOTA算法,为自动驾驶、人群动力学研究提供了重要工具。代码与模型已开源。
在智能交通和安防领域,密集人群中的行人追踪犹如"大海捞针"——当数百人摩肩接踵时,传统基于全身检测的方法常因遮挡而失效。据统计,人群密度超过2人/m2
时,可见身体区域会减少60%以上。虽然人工智能在头部检测领域取得进展,但现有数据集如CroHD仅包含单一视角的互联网视频,缺乏真实场景的复杂交互数据。更棘手的是,头部追踪需要处理仅20×20像素的小目标,其标注成本是全身框的3-5倍,这导致全球头部追踪数据集不足全身数据集的1/10。
武汉理工大学团队在《Engineering Applications of Artificial Intelligence》发表的研究打破了这一僵局。他们耗时18个月采集校园、科技园区等10类场景的1080P视频,构建了包含2358条轨迹的Cchead数据集。该数据集创新性地同时包含俯视和斜视双视角,涵盖89人/帧的超高密度场景。为解决小目标追踪难题,团队开发了多源数据融合网络MDFN,首次实现RGB帧、光流、帧差图、深度图和密度图的端到端联合训练。通过迁移学习策略,MDFN无需额外传感器即可提取五源特征,在特征空间实现背景抑制与头部增强。
关键技术包括:1) 构建50,528帧的中国首个跨场景头部追踪基准数据集;2) 设计基于ResNet-50的骨干网络Nfeat
与检测网络Ndet
的级联架构;3) 开发多源特征融合模块,通过3D卷积整合时空信息;4) 采用ByteTrack数据关联算法处理低分检测框。
【Cchead数据集】
通过控制实验与自然场景结合的方式,团队采集了教室、十字路口等10类场景,平均每帧47人。与CroHD相比,Cchead的轨迹数量增加2.4倍,首次包含行人避碰行为数据。标注采用"三级质检"机制,头部框定位误差控制在±3像素内。
【MDFN网络架构】
网络创新性地将光流与帧差图作为运动特征输入,深度图通过MiDaS模型预生成。实验表明,五源融合使小目标检测AP提升11.6%,其中密度图对30像素以下头部识别贡献率达34%。
【算法对比】
在25fps设定下,MDFN在Cchead上取得67.2%MOTA,较FairMOT提升9.8%。特别在遮挡场景中,多源数据使ID切换次数降低62%。跨数据集测试显示,MDFN在Restaurant数据集上的泛化性能优于CenterNet 13.5%。
这项研究为密集人群分析提供了突破性工具。Cchead数据集填补了亚洲场景头部追踪数据的空白,其多视角设计支持从安防到服务机器人的多场景应用。MDFN的创新性在于证明伪多源数据(通过算法生成而非硬件采集)仍能显著提升性能,这为资源受限场景提供了实用方案。团队开源的2,000小时标注数据和预训练模型,预计将加速智能监控、公共安全等领域的算法迭代。未来工作将探索Transformer架构与事件相机的融合,以进一步解决极端遮挡挑战。
生物通微信公众号
知名企业招聘