编辑推荐:
研究人员针对人类活动识别(HAR)难题,利用多层卷积神经网络(CNNs)展开研究,成果显著,提升了识别性能。
在科技飞速发展的今天,人类活动识别(Human Activity Recognition,HAR)在众多领域发挥着关键作用。无论是在医疗保健中监测患者日常活动、及时发现异常,还是在运动训练里分析运动员动作以提升表现,亦或是在智能家居环境中实现自动化控制,HAR 都不可或缺。然而,目前的 HAR 系统面临诸多挑战。传统的基于手工特征和机器学习算法的方法,在处理复杂的人类活动数据时,性能和效率受限。而且,从加速度计和陀螺仪等传感器获取的数据往往存在噪声和缺失值,这不仅影响模型的准确性,还可能导致过拟合问题,使得模型在实际应用中的可靠性大打折扣。
为了解决这些难题,来自埃及西奈大学、电子研究所以及米努夫大学的研究人员开展了深入研究,相关成果发表在《Scientific Reports》上。
研究人员提出了一种名为 HARCNN 的全新方法,该方法借助卷积神经网络(Convolutional Neural Networks,CNNs)从原始传感器数据中提取分层空间和时间特征,从而增强活动识别性能。
在技术方法上,研究人员设计的 HARCNN 模型包含 10 个卷积块(“ConvBlk”)。每个卷积块集成了卷积层、ReLU 激活函数和批归一化层。卷积层通过卷积运算生成特征图,ReLU 激活函数使模型能够学习复杂任务,批归一化层则增强了模型的稳定性,加快训练速度,减少过拟合。此外,模型还融合了特定卷积块的输出特征,如 “ConvBlk_3 和 ConvBlk_4”“ConvBlk_6 和 ConvBlk_7”“ConvBlk_9 和 ConvBlk_10”,并通过深度连接的方式将这些特征组合起来,让模型能够结合不同抽象层次的信息。最后,利用 2×2 最大池化层和 Softmax 层进行进一步处理和分类。研究人员使用了多个公开数据集进行实验,包括加州大学欧文分校人类活动识别数据集(UCI-HAR)、库尔纳大学人类活动识别数据集(KU-HAR)、无线传感器数据挖掘数据集(WIDSM)和人类运动数据库(HMDB51)。
在研究结果方面:
- 基于 UCI-HAR 数据集的模型性能:UCI-HAR 数据集是活动识别领域的知名基准数据集,包含 30 名参与者的六种不同日常活动的 10,299 张图像。研究人员利用不同的优化技术和学习率对模型进行测试,结果显示,使用随机梯度下降(Stochastic Gradient Descent,SGD)优化技术且学习率为 0.0001 时,测试子集的准确率接近 96%,精度和 F 分数在相似条件下也保持在 95% 左右。通过统计分析可知,多次测试的平均准确率约为 94%,平均 F 分数约为 93%。
- 基于 KU-HAR 数据集的模型性能:KU-HAR 数据集于 2021 年初发布,包含 90 名参与者的 20,750 张图像。在对该数据集的测试中,当使用 SGD 优化技术且学习率为 0.00001 时,模型在测试子集上达到了近 99% 的最高准确率,精度和 F 分数在类似条件下保持在 97% 左右。统计分析表明,平均准确率为 98%,平均 F 分数和精度约为 96%。
- 基于 WISDM 数据集的模型性能:WISDM 数据集通过安卓智能手机上的移动应用收集,参与者需进行五种不同的监督活动,数据集包含 29 名参与者的六种不同动作的 5424 张图像。实验结果显示,使用 SGD 优化技术且学习率为 0.0001 时,测试子集的最高准确率接近 94%,精度和 F 分数在相似条件下分别保持在 94% 和 93% 左右。统计分析得出,平均准确率为 94%,平均 F 分数和精度约为 93%。
- 基于 HMDB51 数据集的模型性能:HMDB51 数据集包含 51 个动作类别的 6,766 个视频剪辑,涵盖了各种人类活动。在对该数据集的测试中,使用 ADAM 优化技术且学习率为 0.01 时,模型的最高准确率接近 98%,精度和 F 分数始终保持在 97% 左右。平均准确率为 97%,平均 F 分数和精度约为 96%。
- 模型的鲁棒性测试:研究人员还测试了模型在不同窗口大小(50ms、100ms、200ms、500ms、1s 和 2s)下的性能。结果表明,该方法在不同窗口大小下都能保持较高的准确率和可靠性,适应不同的时间粒度且性能无显著下降。其中,窗口大小为 200ms 时效果最佳。
- 与其他方法的对比分析:研究人员将 HARCNN 模型与多个预训练的 CNN 模型和各种先进的分类技术进行比较。结果显示,在 KU-HAR 数据集上,该方法的准确率达到 99.12%,高于其他研究;在 UCI HAR 数据集上,也优于许多其他研究;在 WISDM 数据集上,准确率提高了 2.69%,F 分数提高了 4.7%;在 HMDB-51 图像上,模型的准确率达到 98.51%,F 分数达到 97.27%。
研究结论和讨论部分指出,HARCNN 框架在人类活动识别领域取得了显著进展。它通过精心设计的 CNN 架构,有效从原始传感器数据中提取特征,并且在多个数据集上验证了其鲁棒性和适应性。与传统方法相比,HARCNN 在准确率、精度、灵敏度和 F 分数等方面表现更优,减少了误报和漏报,这对于实际应用至关重要。此外,该模型能够在不同时间粒度下保持稳定性能,适用于传感器采样率和时间分辨率不同的实际场景。同时,HARCNN 模型可在移动设备上进行高效推理,通过量化等技术还能进一步减少内存使用和加速执行,适用于医疗、运动和人机交互等移动应用领域。不过,研究人员也指出,未来的研究可以探索扩展该框架以处理多模态传感器数据、实现实时处理和针对特定应用进行优化,从而进一步拓展其在各种 HAR 场景中的实用性。
总之,这项研究为人类活动识别领域带来了新的突破,HARCNN 模型有望广泛应用于医疗保健监测系统、健身追踪器和人机交互平台等,为人们的生活和健康提供更智能、更可靠的支持。