面向人体中心雷达的AI驱动全自动多模态标注框架及其在深度学习人员定位中的应用

《IEEE Journal of Microwaves》:Fully Automated, AI-Driven Multimodal Annotation Framework for Human-Centric Radar Applied to Deep Learning-Based People Localization

【字体: 时间:2025年12月26日 来源:IEEE Journal of Microwaves 4.9

编辑推荐:

  为解决雷达数据标注费时费力且易出错的问题,研究人员开发了一种全自动多模态标注框架。该框架通过融合FMCW MIMO雷达与Azure Kinect RGB-D相机数据,利用双向卡尔曼滤波(BKF)和全景分割技术,生成了包含空间、时间和多普勒维度的5D雷达标签。实验结果表明,基于该标签训练的深度学习模型在室内人员定位任务中,平均位置误差仅为0.31米,占用分类准确率达到91.8%,为大规模、学习型雷达感知应用铺平了道路。

  
在智能家居、医疗监护和工业安全等领域,雷达传感器因其具备穿透性、不受光照影响且能保护隐私等优势,正受到越来越多的关注。然而,要让机器能够像人类一样理解雷达信号,通常需要依赖深度学习模型。而训练这些模型,就像教孩子认字一样,需要海量带有“标准答案”的数据。但给雷达数据打上“标准答案”的标签,却是一项极其艰巨的任务。由于雷达信号缺乏直观的视觉对应,人工标注不仅耗时耗力,而且极易产生主观偏差和不一致性,这严重制约了雷达感知技术的发展。
为了突破这一瓶颈,来自德国埃尔朗根-纽伦堡大学的研究团队在《IEEE Journal of Microwaves》上发表了一项创新性研究。他们开发了一套名为“RadarBox”的全自动、AI驱动的多模态标注框架,旨在为人体中心雷达应用生成大规模、高精度的标注数据。该研究通过将雷达与视觉传感器深度融合,并引入先进的信号处理与滤波算法,成功实现了对雷达数据的“一键式”精准标注,为雷达感知技术的智能化发展提供了强大的数据引擎。
关键技术方法
为了构建这一全自动标注框架,研究人员主要采用了以下关键技术方法:
  1. 1.
    多模态传感器融合:研究团队设计并搭建了名为“RadarBox”的硬件平台,将德州仪器的FMCW MIMO雷达与微软的Azure Kinect RGB-D相机进行物理集成。通过精确的空间标定和硬件级时间同步,确保了雷达与相机数据在时空上的严格对齐。
  2. 2.
    视觉驱动的标签提取:利用Azure Kinect的深度信息,结合全景分割(Panoptic Segmentation)技术,从RGB图像中自动分割出人体实例,并重建出体素化的表面网格。同时,利用Azure Kinect Body Tracking SDK提取3D人体关节点位置。
  3. 3.
    轨迹优化与速度估计:针对视觉跟踪中可能出现的抖动、丢失或非生理性波动,研究团队应用了双向卡尔曼滤波器(Bidirectional Kalman Filter, BKF)。该算法不仅平滑了关节点轨迹,还精确地估计了每个关节点的速度矢量,为雷达多普勒维度的标注提供了关键信息。
  4. 4.
    雷达信号处理:对原始雷达信号进行一系列处理,包括慢时间维度的静态杂波抑制(Static Clutter Removal, SCR)、2D FFT变换以获取距离-多普勒(Range-Doppler)信息、2D有序统计恒虚警(OS-CFAR)检测以及2D FFT波束成形(Beamforming)以估计到达角(DoA),最终生成包含位置、速度和强度等信息的雷达目标列表。
研究结果
1. 5D雷达立方体标注
研究团队成功地将从相机数据中提取的标签投影到了5D雷达数据立方体(时间、距离、多普勒、俯仰角、方位角)中。通过一个示例展示了在距离-多普勒切片上的标注效果。如图9所示,两名在室内自由活动的人员在雷达图像上产生了多个强反射点。通过自动标注,这些反射点被准确地关联到了人体的关键关节点(如骨盆、手、脚、鼻子等)。结果显示,标记的关节点可靠地覆盖了人体的强反射区域,而由多径传播或其他杂波产生的回波则被有效忽略。这证明了该框架能够为雷达数据提供精确的、多维度的标签,为后续的机器学习任务奠定了坚实基础。
2. 点云标注
除了在原始数据域进行标注,该框架还支持对处理后的雷达点云进行标注。通过将雷达处理链提取出的目标点与相机生成的参考点进行邻近匹配(距离阈值≤30cm),雷达点云被自动赋予了相应的标签和实例编号。如图10所示,被分配给人类的点云以绿色和橙色显示,而未分配的点云则显示为蓝色。这种方法充分利用了相机和深度传感器提供的人体表面数据,这些表面直接对应于产生雷达反射的物理结构,从而实现了对雷达反射源的精确标注。
3. 深度学习驱动的室内人员定位应用
为了验证所生成标签的有效性,研究团队将其应用于一个具体的下游任务:基于深度学习的室内人员定位。他们设计了一个深度神经网络模型,该模型以雷达目标列表作为输入,旨在预测室内的人员数量(分类任务)和每个人的空间坐标(回归任务)。
  • 模型架构:该网络采用多阶段处理流程。首先,使用PointNet主干网络从每个雷达帧中提取空间特征;然后,通过Transformer编码器捕捉时间依赖性;最后,通过两个全连接头分别进行占用状态分类和位置坐标回归。
  • 数据集与训练:研究在三个不同的室内环境(办公室、厨房、实验室)中采集了数据,涵盖了0、1、2人的不同占用场景。数据集被划分为训练集、验证集和测试集,并采用交叉验证策略评估模型的泛化能力。
  • 定性结果:如图14所示,在单人场景中,模型预测的轨迹(红色)与地面真值(蓝色)几乎完全吻合;在双人场景中,网络正确识别了两人并重建了他们的运动路径;在存在遮挡的挑战性场景中,尽管Azure Kinect的体感追踪数据出现了暂时丢失,但网络受益于BKF标注提供的平滑轨迹,利用其学习到的时空上下文信息,无缝地推断并维持了每个人的位置。
  • 定量结果:如表3所示,该模型在室内人员定位任务上表现出色。在回归方面,平均位置误差为0.313米,中位数位置误差为0.270米,表明模型能够实现高精度的空间定位。在分类方面,占用分类的准确率达到91.78%,精确率为89.98%,召回率为93.33%,F1分数为91.63%,显示出模型在识别人员数量方面具有很高的可靠性。
结论与讨论
本研究成功开发并验证了一个全自动、多模态的标注框架,用于生成人体中心毫米波雷达数据的高精度地面真值标签。该框架的核心贡献在于,通过将FMCW MIMO雷达与Azure Kinect相机进行精确的空间标定和硬件级同步,并利用AI驱动的全景分割、体素化表面重建以及双向卡尔曼滤波器(BKF)等先进技术,实现了对雷达数据的“一键式”精准标注。
该框架不仅能够生成包含空间、时间和多普勒维度的5D雷达立方体标签,还能将标签投影到处理后的雷达点云上。更重要的是,通过引入BKF算法,该框架能够平滑和插值关节点轨迹,有效弥补因遮挡或检测失败造成的数据缺失,并输出每帧的速度估计值,这直接为雷达多普勒维度的标注提供了地面真值。
为了证明所生成标签的有效性,研究团队将其应用于一个基于深度学习的室内人员定位任务。实验结果表明,仅使用雷达目标列表作为输入,训练出的深度学习模型能够实现高精度的室内人员定位,平均位置误差仅为0.31米,占用分类准确率达到91.8%,即使在存在遮挡的挑战性场景下也表现出色。
这项研究的意义在于,它为解决雷达数据标注这一长期存在的瓶颈问题提供了一种强大而高效的解决方案。通过实现大规模、高质量雷达数据集的自动生成,该框架为下游的基于学习的雷达感知任务(如目标检测、活动识别和姿态估计)铺平了道路,将极大地加速雷达感知技术在人体中心应用中的发展和部署。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号