基于变换器神经架构和极值理论的开放集行人识别
《Engineering Applications of Artificial Intelligence》:Open-set pedestrian identification via transformer-based neural architecture with extreme value theory
【字体:
大
中
小
】
时间:2025年11月23日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
开放集RFID pedestrian识别通过注意力神经网络与极值理论结合,有效提升未知类别检测准确率,适用于物联网等隐私保护场景。
本文探讨了一种适用于开放集场景的行人识别系统,该系统结合了注意力神经网络(ANN)和极值值理论(EVT)模型,以解决传统方法在实际应用中遇到的识别不确定性问题。随着无线频率(RF)传感技术的发展,越来越多的非接触式系统被用于分析人类活动和步态,如Wi-Fi、毫米波雷达和多普勒雷达等。这些技术虽然具备一定的实用性,但在面对未曾见过的个体或异常行为时,往往表现出稳定性不足的问题。因此,开发能够处理开放集识别(OSR)任务的系统显得尤为重要。
在计算机视觉领域,已有大量关于OSR的研究,包括基于距离度量的方法、基于模型的方法以及概率学习方法等。然而,这些方法在实际应用中仍存在诸多限制,如对阈值设置的依赖、对数据分布的假设过于简单,以及在处理复杂特征时的不足。基于距离的方法通常通过计算样本与已知类别的中心距离,并设定一个全局阈值来判断样本是否属于已知类别。这种方法在数据分布较为简单的情况下表现良好,但在实际场景中,数据往往呈现出复杂的结构,使得简单的距离度量无法准确区分已知类别和未知样本。基于模型的方法则通过训练二分类器来定义已知类别与自由空间之间的边界,但这种方法通常需要在高度不平衡的数据集上进行训练,容易导致模型过拟合。此外,一些基于生成对抗网络(GAN)和深度半监督异常检测(DeepSAD)的方法虽然在某些场景中取得了不错的效果,但对数据规模和质量的要求较高,难以广泛应用于实际系统。
相比之下,本文提出的方法利用极值值理论来建模类别条件下的尾部分布,从而在中间层嵌入中建立更稳健的类别接受区域。这一策略避免了对全局阈值的依赖,同时增强了模型对未知样本的识别能力。具体而言,系统首先通过RFID标签阵列采集时间序列信号,这些信号反映了个体在通过传感区域时的运动状态。随后,注意力机制将这些多模态数据(如接收信号强度指示器(RSSI)和相位角)进行融合和优化,以形成紧凑且具有个体特征的表示。在这一过程中,模型特别关注那些与类别中心相似度最低的样本,以更好地捕捉类别内部的分布特征。最终,EVT模型被用于统计建模这些尾部特征,从而为模型提供更精确的边界判断。
在实验部分,系统在50名行人的样本上进行了测试,结果表明,在闭集识别场景中,模型的识别准确率达到了99%。而在开放集场景中,当开放度达到18.4%(即已知样本和未知样本数量相等)时,模型的识别准确率仍保持在90%以上。这一表现不仅验证了方法的有效性,也表明该系统能够在复杂的现实环境中保持较高的识别稳定性。此外,该系统还具有良好的隐私保护特性,因为其不依赖于直接获取的视觉信息,而是通过无线频率信号进行分析,从而避免了对敏感物理特征的暴露。
在行人识别任务中,模型的性能受到多种因素的影响,包括数据的分布特性、特征的提取方式以及分类器的设计策略。本文提出的方法通过结合注意力机制和EVT模型,能够在保持高识别准确率的同时,有效处理未知样本的识别问题。与传统的基于距离的OSR方法相比,该方法避免了对全局阈值的依赖,从而提高了模型的鲁棒性。同时,通过在中间层嵌入中引入EVT模型,该方法能够更精确地捕捉类别条件下的尾部分布,从而为模型提供更合理的边界判断。
在开放集设置中,模型的性能还受到测试集中已知类别与未知类别比例的影响。开放度(Openness)是一个衡量模型在开放集场景中表现的重要指标,其定义为:开放度 = 1 - √(2N_train / (N_test + N_train)),其中N_train表示训练集中的类别数量,N_test表示测试集中的类别数量。当N_train等于N_test时,开放度为零,表示模型处于闭集识别场景。随着开放度的增加,模型需要更精确地区分已知类别和未知样本,这对其性能提出了更高的要求。因此,本文提出的方法在设计上特别关注这一问题,通过在中间层嵌入中引入EVT模型,为模型提供了更稳健的类别接受区域,从而提高了模型在开放集场景中的识别能力。
在行人识别任务中,模型的性能还受到数据预处理和特征提取的影响。本文提出的方法首先通过RFID标签阵列采集时间序列信号,这些信号反映了个体在通过传感区域时的运动状态。随后,注意力机制将这些多模态数据(如接收信号强度指示器(RSSI)和相位角)进行融合和优化,以形成紧凑且具有个体特征的表示。在这一过程中,模型特别关注那些与类别中心相似度最低的样本,以更好地捕捉类别内部的分布特征。最终,EVT模型被用于统计建模这些尾部特征,从而为模型提供更精确的边界判断。
本文的研究成果不仅为RF传感技术提供了新的解决方案,也为隐私保护和环境感知的物联网应用提供了重要的支持。通过结合注意力机制和EVT模型,该系统能够在保持高识别准确率的同时,有效处理未知样本的识别问题。这不仅有助于提升系统在复杂环境中的稳定性,也为实际应用提供了更高的可靠性。此外,该系统还能够适应不同规模的测试集,无论是在闭集场景还是开放集场景中,都能保持较高的识别准确率。这表明,本文提出的方法具有广泛的应用前景,特别是在大规模访问控制和隐私保护的物联网环境中。
综上所述,本文提出了一种结合注意力神经网络和极值值理论的开放集行人识别系统,该系统通过RFID标签阵列采集时间序列信号,并利用注意力机制对多模态数据进行融合和优化,以形成紧凑且具有个体特征的表示。随后,通过EVT模型对中间层嵌入进行统计建模,为模型提供更稳健的类别接受区域,从而提高模型在开放集场景中的识别能力。实验结果表明,该系统在闭集识别场景中能够达到99%的识别准确率,而在开放集场景中,即使开放度达到18.4%,模型的识别准确率仍保持在90%以上。这一研究成果为RF传感技术在实际应用中的发展提供了新的思路,同时也为隐私保护和环境感知的物联网应用提供了重要的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号