基于大规模无人机的热红外基准测试以及用于人群计数的Inception Transformer网络
《Pattern Recognition Letters》:A Large-Scale Drone based Thermal Infrared Benchmark and Inception Transformer Network for Crowd Counting
【字体:
大
中
小
】
时间:2025年11月24日
来源:Pattern Recognition Letters 3.3
编辑推荐:
本文构建了首个大规模无人机热红外人群计数数据集LYU-DroneInfrared,包含64,210张图像及2,997,352个头部标注点,涵盖多种场景。提出IncepTNet模型,通过低频与高频分支并行提取特征,显著提升密集遮挡场景下的计数精度,并在多个基准数据集上验证其有效性。
随着城市化进程的加快,人群计数技术在公共安全、智能城市等领域扮演着越来越重要的角色。人群计数的核心任务是通过图像或视频来估算特定场景中的人数,其应用范围广泛,从大型活动的现场管理到城市交通流量分析,再到安全监控系统等。然而,目前主流的人群计数研究主要依赖于可见光图像数据集,这些数据集虽然在某些场景下表现良好,但在低光照或恶劣天气条件下往往难以提供准确的计数结果。此外,可见光图像容易受到光照变化、大规模人群差异以及遮挡等问题的影响,导致计数性能受限。因此,如何在复杂环境条件下实现高效、准确的人群计数成为当前研究的一个重要方向。
近年来,随着红外成像技术的发展,热红外图像因其对光照条件不敏感的特性,逐渐成为人群计数研究的一个新热点。热红外图像能够捕捉物体的热辐射特征,使得在夜间或低光照条件下也能获得清晰的视觉信息。这为人群计数提供了新的可能性,尤其是在需要高可靠性的安全监控和紧急疏散场景中。然而,现有的热红外人群计数数据集大多局限于单模态数据,缺乏多样化的场景覆盖,这限制了模型在实际应用中的泛化能力。同时,由于热红外图像中缺乏丰富的纹理和色彩信息,传统的基于卷积神经网络(CNN)的方法在处理这类数据时往往面临特征提取不足的问题。
为了克服这些挑战,本研究提出了一种基于无人机采集的热红外人群计数数据集——LYU-DroneInfrared。该数据集包含64,210张图像和2,997,352个头部标注点,涵盖了学校、街道、广场、运动场地等多种典型场景。相比现有的可见光人群计数数据集,LYU-DroneInfrared具有以下几个显著优势:首先,它提供了高质量的热红外图像数据,这些数据在低光照或恶劣天气条件下仍然具有良好的可视化效果;其次,该数据集的采集视角来自无人机,能够覆盖更广泛的区域,为研究不同尺度和密度的人群场景提供了丰富的数据支持;最后,数据集的标注点数量庞大,能够有效提升模型的训练效果和泛化能力。
在构建数据集的基础上,本研究还提出了一种基于Transformer架构的新型人群计数模型——IncepTNet。该模型采用了一种结合低频特征提取和高频特征提取的双分支结构,旨在充分利用热红外图像中不同层次的信息。低频特征提取部分通过平均池化和多头自注意力机制,捕捉图像中的全局上下文信息;而高频特征提取部分则采用并行的卷积和最大池化操作,以增强模型对图像细节的感知能力。这种设计不仅能够有效应对热红外图像中缺乏纹理和色彩的问题,还能够在不同密度和遮挡程度的场景中实现更精确的人群计数。
在实验部分,我们对提出的IncepTNet模型进行了广泛的测试,包括在JHU-Crowd++、NWPU-Crowd以及LYU-DroneInfrared这三个数据集上的性能评估。实验结果表明,IncepTNet在这些数据集上的表现均优于现有的主流方法,尤其是在处理热红外图像时,其准确性和鲁棒性得到了显著提升。此外,我们还对模型的各个组成部分进行了消融实验,以验证其设计的有效性。实验结果显示,低频分支和高频分支的结合能够有效提升模型的整体性能,而Transformer架构的引入则显著增强了模型对长距离依赖关系的建模能力。
在实现细节方面,我们采用了ResNet50作为模型的主干网络,并在Transformer编码器和解码器部分均设置了6层结构。解码器部分的查询数量被设定为500,图像裁剪尺寸为256×256,同时通过随机裁剪、随机缩放和水平翻转等数据增强方法,进一步提升了模型的泛化能力。模型的总通道数设定为256,其中前32个通道被定义为低频部分,其余部分则用于高频特征提取。这种设计使得模型能够在不同层次上提取图像信息,从而更好地适应热红外图像的特点。
本研究的主要贡献可以概括为以下三个方面。首先,我们构建了一个大规模的基于无人机的纯热红外人群计数数据集,该数据集不仅在数据量上远超现有数据集,而且在场景多样性和数据质量方面也具有显著优势。其次,我们提出了一种新的基于Transformer架构的模型——IncepTNet,通过结合低频和高频特征提取,有效解决了热红外图像中信息表达不足的问题,从而提升了模型在复杂场景下的计数能力。最后,我们在多个主流数据集上进行了实验验证,证明了IncepTNet在人群计数任务中的优越性能,为后续相关研究提供了重要的参考价值。
为了进一步验证IncepTNet的有效性,我们对模型的各个模块进行了详细的分析。在低频特征提取部分,平均池化操作能够有效降低图像的空间分辨率,从而提取出更宏观的特征信息,而多头自注意力机制则能够捕捉图像中的全局上下文关系,为模型提供更丰富的语义信息。在高频特征提取部分,卷积操作能够有效地提取图像中的局部细节特征,而最大池化操作则能够在一定程度上保留图像中的关键结构信息。通过将这两种特征提取方式并行处理,模型能够在不同尺度上同时捕捉到图像的全局和局部特征,从而提高计数的准确性。
此外,我们还对模型的损失函数进行了优化设计。传统的损失函数往往在处理人群计数任务时存在一定的局限性,例如对密集人群和遮挡区域的处理效果不佳。为此,我们引入了一种新的损失函数,通过结合多任务学习的思想,同时优化模型的回归和分类能力。这种设计不仅能够提升模型在密集人群场景下的表现,还能够有效减少遮挡区域对计数结果的影响,从而提高模型的鲁棒性。
在实验结果方面,我们对IncepTNet在不同数据集上的表现进行了深入分析。在JHU-Crowd++数据集上,IncepTNet在多种评估指标下均优于现有的主流方法,尤其是在处理高密度人群场景时,其准确率和召回率均显著提升。在NWPU-Crowd数据集上,IncepTNet同样表现出色,其在不同光照条件和遮挡程度下的表现均优于传统方法。而在LYU-DroneInfrared数据集上,由于该数据集的特殊性,IncepTNet在热红外图像上的表现尤为突出,其在复杂环境下的计数能力得到了充分验证。
综上所述,本研究提出了一种基于无人机采集的热红外人群计数数据集LYU-DroneInfrared,并设计了一种结合低频和高频特征提取的IncepTNet模型。该模型通过引入Transformer架构,有效提升了人群计数的准确性和鲁棒性,为人群计数技术在复杂环境下的应用提供了新的思路和方法。本研究的成果不仅有助于推动人群计数技术的发展,还为相关领域的实际应用提供了重要的数据支持和模型参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号