WiVi-UF：一种跨模态变换器中的统一特征学习方法，结合了WiFi和视觉数据融合技术，以提升人类活动识别的准确性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：WiVi-UF: Unified Feature Learning in Cross-Modal Transformers with WiFi and Vision Data Fusion for Enhanced Human Activity Recognition

【字体：大中小】 时间：2026年02月19日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　提出基于跨模态Transformer的WiVi-UF框架，通过统计特征投影对齐时空信息，动态加权融合WiFi与视频数据，有效提升复杂环境下的活动识别鲁棒性，在MM-Fi和WiMANS数据集上达到98.75%和96.3%的识别精度。

Xinhang Lin|Xianxun Zhu|Erik Cambria

纽约大学坦登工程学院，美国纽约布鲁克林

摘要

人类活动识别（HAR）通过结合互补的感知模式而受益，然而许多现有的WiFi-视觉方法使用浅层连接或静态加权，在光照变化、遮挡和环境变化的情况下性能会下降。我们提出了WiVi-UF，这是一个基于跨模态Transformer的统一特征学习框架，它将WiFi信道状态信息（CSI）与RGB视频融合在一起。WiVi-UF引入了以下机制：（i）统计特征投影（Statistical Feature Projection），用于对CSI时间序列进行标记并将其与视频标记对齐；（ii）具有跨模态自注意力的时间嵌入（Temporal Embedding），以捕捉局部时间动态和全局时空依赖性；（iii）多流融合模块（Multi-Stream Fusion），该模块执行双向WiFi-视频交叉注意力并采用自适应加权，随后进行分解式Transformer编码和轻量级分类器。在MM-Fi和WiMANS数据集上的评估表明，WiVi-UF的表现始终优于单模态基线和之前的融合方法。在MM-Fi数据集上，其活动识别准确率达到98.75%，身份识别准确率达到98.63%；在WiMANS数据集上，身份识别准确率达到96.3%，定位准确率达到91.7%，活动识别准确率达到70.2%。消融研究验证了统计特征投影、时间嵌入、跨模态注意力和分解式编码的贡献。这些结果表明，在复杂现实环境中，动态加权的深度跨模态融合能够实现稳健的人类活动识别，并为整合额外的感知模式提供了可扩展的基础。

引言

在智能家居、安全监控和医疗保健等领域，人类活动识别（HAR）技术越来越普遍[1]、[2]、[3]。传统的HAR系统通常依赖于单一数据源，如视频或传感器数据[4]，但由于数据的单一性，这些系统在复杂环境中面临识别准确率低和适应性差的挑战[5]。传感器技术和计算模型的最新进展使得多模态数据融合成为提高系统性能和鲁棒性的热门研究课题[6]、[7]、[8]。通过整合来自不同传感器的数据，多模态融合克服了单一数据源的局限性，并在复杂环境中显示出更优越的识别性能[9]。例如，不受光照条件影响的WiFi信号可以在无光或弱光环境中进行活动识别[10]。然而，仅在动态环境中使用WiFi信号的准确性仍然有限。尽管视觉数据受到光照和遮挡的显著影响，但它提供了环境和动作细节的独特优势[11]。

现有的融合WiFi和视频的方法很少，通常涉及简单的特征连接，这并不能有效实现整合。本综述指出了三个当前的挑战：1）如何有效地对视频和WiFi数据进行标记以适应Transformer的输入[12]；2）如何有效地从视频和WiFi模态中提取局部时间特征和跨模态的全局时空特征；3）如何有效地融合WiFi和视觉信息。

为了解决这些挑战，本文提出了一个新的多模态融合框架WiVi-UF（基于WiFi和视觉数据的跨模态Transformer中的统一特征学习）。该框架使用跨模态Transformer技术深度整合WiFi和视觉数据，从而提高了HAR的整体性能。为了克服多模态融合中的核心技术挑战，本研究引入了三项技术创新：1）统计特征投影（Statistical Feature Projection，SFP），它高效地对WiFi时间序列进行标记，并将其与视觉数据在时空上进行对齐；2）时间嵌入（Temporal Embedding，TE）和跨模态Transformer结构的设计，用于深度提取局部时间和全局时空特征[13]；3）多流融合注意力模块（Multi-Stream Fusion），该模块促进WiFi和视觉模态之间的深度交互和动态权重分配，提高了模型的适应性和识别准确性。

本文的主要贡献包括：

•

我们提出了WiVi-UF，一个用于WiFi-视觉HAR的统一跨模态Transformer，并提出了统计特征投影（SFP），用于将CSI标记并与视频标记在共同的时间线上对齐。

•

我们开发了具有双向WiFi?Video交叉注意力的时间嵌入（TE）、分解式时空编码、自适应多流融合和轻量级分类器，以共同建模局部时间线索和全局依赖性。

•

我们在MM-Fi和WiMANS数据集上展示了最先进的性能，并进行了全面的消融研究，验证了SFP、TE和融合模块的收益，证明了其对光照变化、遮挡和环境变化的鲁棒性。

本文的其余部分结构如下：第2节将详细介绍相关工作，包括单模态和多模态HAR研究的进展；第3节描述了所提出的多模态融合方法的理论基础和实现细节；第4节介绍了在两个主要数据集上的实验设计和性能分析；第5节讨论了实验结果并进行了消融研究以验证模型的有效性；最后，第6节总结了整篇论文并展望了未来的研究方向。

部分摘录

单模态HAR方法

单模态HAR技术主要基于视觉或无线信号，在特征表示和应用场景上存在显著差异。

方法

在这项工作中，我们介绍了WiVi-UF框架，这是一个复杂的多模态融合系统，旨在通过整合WiFi和视频数据流来增强人类活动识别（HAR）。该框架采用双路径特征提取策略，其中每种模态（WiFi和视频）都通过专门模块进行处理，例如WiFi的SFP和视频的Vision Transformer（ViT）。在初步提取之后，这两种模态进一步

基线模型和评估标准

为了验证所提出的WiVi-UF框架及其预训练阶段的有效性，我们将其与利用WiFi信道状态信息（CSI）和视频数据的现有人类活动识别方法进行了比较。基准方法根据它们处理的数据类型进行了分类。

对于视觉基准，考虑了以下模型：

•

ViT [46] 由Dosvit和De Visscher提出，采用对比学习机制进行图像分类，将图像嵌入到

数据预处理

对于视频模态，每个输入视频首先被分割成八个连续的时间窗口。在每个窗口内，随机选择一个代表性帧并将其统一调整为224×224像素。调整大小的RGB图像随后被分割成16×16像素的不重叠块，每个块被展平为一个长度为16×16×3的一维向量，形成该帧的标记序列。为了保持固有的时空顺序，两个位置嵌入

结论

本文通过将WiFi信道状态信息与RGB视频紧密结合在单个跨模态Transformer中，解决了在光照变化、遮挡和环境变化条件下进行稳健的人类活动识别这一挑战。所提出的WiVi-UF框架围绕三个设计选择展开：统计特征投影（Statistical Feature Projection），用于在共同的时间线上将CSI标记与视频标记对齐；时间嵌入（Temporal Embedding）加上位置精细化，以保持局部动态和顺序；以及

CRediT作者贡献声明

Xinhang Lin：调查、资金获取、正式分析、数据管理、概念化。Xianxun Zhu：正式分析、数据管理。Erik Cambria：监督、软件、方法论、调查。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者们希望对审稿人的深刻评论和建议表示感谢，这些评论和建议显著提高了本文的质量。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号