利用自训练机器学习模型开发并评估腕部与大腿佩戴加速度计算法以分类活动类型与姿势：迈向ProPASS联盟中设备佩戴位置无关的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Behavioral Nutrition and Physical Activity》：Development and evaluation of wrist- and thigh-worn accelerometer algorithms using self-training machine learning models for classification of activity type and posture: towards device placement-agnostic methods in the ProPASS consortium

【字体：大中小】 时间：2026年07月03日 来源：International Journal of Behavioral Nutrition and Physical Activity 7.1

编辑推荐：

　　可穿戴加速度计在健康研究中得到广泛应用，但不同的佩戴位置（如腕部与大腿）阻碍了跨研究活动分类的数据协调。既往研究报告显示，佩戴位置不同可导致身体活动水平估计存在1.5至2.0倍的差异，损害了数据的可比性，并限制了组建联盟以及开展荟萃分析（Meta-analys

可穿戴加速度计在健康研究中得到广泛应用，但不同的佩戴位置（如腕部与大腿）阻碍了跨研究活动分类的数据协调。既往研究报告显示，佩戴位置不同可导致身体活动水平估计存在1.5至2.0倍的差异，损害了数据的可比性，并限制了组建联盟以及开展荟萃分析（Meta-analysis）和个体参与者数据（Individual Participant Data, IPD）分析的潜力。尽管监督式机器学习（supervised machine learning）在可穿戴设备研究中的应用日益增多，但其对大量标注数据的依赖限制了其在自由生活数据集中的应用。半监督学习（semi-supervised learning）提供了一种高效的替代方案，通过利用实验室采集的标注数据，对未标注的自由生活数据进行迭代式自训练。本研究采用自训练方法，旨在训练并评估适用于腕部和大腿佩戴设备的算法，以促进不同佩戴位置间姿势和活动类型分类的数据协调。共计146名30至75岁的参与者完成了结构化实验室活动试验或两项独立自由生活评估中的一项，同时佩戴腕部和大腿Axivity AX3加速度计。针对每个佩戴位置，研究人员首先利用标注实验室数据集（n=40）训练监督式随机森林分类器（Random Forest classifier），以分类坐姿、站立、步行、跑步、爬楼梯和骑行六种活动类型，随后利用自由生活数据（n=53，与实验室研究样本独立）进行自训练重新训练模型。最终模型通过另一个独立的自由生活预留数据集（n=53）进行验证，该数据集的地面真实活动标签通过直接视频观察获得。整体模型比较与性能采用准确率（accuracy）、Kappa统计量和F1分数进行评估；单个活动类别的比较与性能通过等效性检验（equivalence testing）、混淆矩阵（confusion matrix）以及腕部与大腿估计值之间的变异系数（coefficient of variation, CV）进行评估。在总计43,800分钟的数据中，预留数据集占19,080分钟，两个自训练模型均实现了较高的整体分类准确率：腕部为91.8%（标准差SD=6.8%），大腿为95.1%（SD=5.4%）。整体F1分数分别为腕部分类器88.2（SD=9.6%）和大腿分类器90.1（SD=9.3%）。等效性检验表明，除爬楼梯外，两个分类器对所有活动类型产生的活动时间估计与地面真实值均具有统计学等效性。腕部的混淆矩阵显示，坐姿、步行、跑步和骑行的分类准确率为良好至优秀（88%?97%），站立和爬楼梯为良好（71%?78%）。大腿方面，坐姿、站立、步行、跑步和骑行的表现为良好至优秀（83%?98%），爬楼梯为良好（75%）。变异系数范围为跑步0 worldwide sport.just 0.022 到站立的0.140。这些发现凸显了自训练模型在支持不同佩戴位置可穿戴加速度计数据协调方面的潜力。自训练模型减少了对大量标注数据的依赖，并对腕部和大腿佩戴加速度计均表现出较高的活动类型分类准确率，在几乎所有活动类型上与地面真实数据具有高度一致性和等效性。

研究背景与问题

可穿戴设备，尤其是配备加速度计（accelerometer）传感器的设备，已成为观察性研究和干预研究中量化身体活动的常用评估工具。然而，当前可穿戴设备研究面临一个长期存在的核心挑战：如何协调来自不同身体佩戴位置的加速度计数据输出。过去十年间，大多数研究采用的设备佩戴位置主要为腕部或大腿，但这两个位置产生的身体活动测量结果目前被认为不可直接兼容。既往研究报告显示，仅依赖加速度幅值时，不同佩戴位置可导致1.5至2.0倍的身体行为估计差异，造成活动 prevalence 估计不一致以及与 health outcome 关联结果的偏差。这种差异部分源于既往处理方法常为特定佩戴位置量身定制——例如，加速度幅值作为可靠的整体身体运动指标适用于靠近身体质量中心（如髋部或大腿）的佩戴位置，但当应用于腕部佩戴设备时，其主要反映的是局部手臂运动而非整体身体活动。随着世界卫生组织（World Health Organization）推动将可穿戴设备整合入下一代全球监测系统，开发能够协调不同佩戴位置身体活动估计的方法论变得至关重要。

现有监督式机器学习模型虽能在控制性实验室环境中实现不同佩戴位置间低于10%的差异，但其在自由生活环境中应用时，由于日常活动的非结构化特征，准确率会降低25%至40%。而在自由生活条件下获取大量带有地面真实标签的数据训练样本，在后勤和时间成本上存在实际困难。半监督学习作为一种有前景的替代方案，可通过少量标注数据开发基础分类器，再迭代地利用大量未标注自由生活数据进行自训练。若该方法的稳健性得到验证，则有望弥合控制实验室环境与复杂真实世界环境之间的鸿沟，增强可穿戴传感器数据的泛化性和实用价值。ProPASS联盟（Physical Activity Spectrograms consortium）成立于2017年，是一个以大腿佩戴加速度计为重点的国际合作倡议，旨在通过大规模个体参与者数据分析推动下一代身体活动指南的制定。截至2023年，ProPASS已扩展纳入包含腕部佩戴加速度计数据的队列，因此亟需开发能够实现不同佩戴位置间活动类型和姿势分类协调的方法。

研究设计与主要发现

研究人员开展了一项三臂研究，旨在利用半监督自训练方法，训练并评估适用于腕部和大腿佩戴设备的算法，以实现不同佩戴位置间广泛活动类型和姿势识别的协调。研究共纳入146名30至75岁的参与者，分为三个独立的研究臂：臂1为结构化实验室活动试验（n=40），臂2为自由生活数据收集用于自训练（n=53），臂3为独立自由生活数据收集用于模型验证（n=53）。所有参与者均佩戴Axivity AX3加速度计于优势手腕及右大腿前侧中段（股骨大转子与股骨外上髁中点之间）。自由生活数据通过身体佩戴视频记录仪获取直接观察的地面真实标签，采用基于体力活动纲要（Physical Activity Compendium）的六种活动类别进行编码：坐姿、站立、步行、爬楼梯、跑步/高强度活动以及骑行。

模型开发采用随机森林分类器作为基础模型，首先从三轴（x、y、z轴）10秒非重叠窗口的75个时域和频域特征中提取信息。基础分类器在臂1实验室标注数据上进行监督训练后，应用于臂2自由生活未标注数据进行自训练迭代：模型预测未标注数据的标签，将预测置信度≥80%的伪标签（pseudo-labels）用于重新训练分类器，如此反复直至连续两次迭代间预测置信度改进<2%时收敛。随后，使用隐马尔可夫模型（Hidden Markov Model, HMM）对随机森林分类器的活动概率序列进行时间平滑处理，生成最终的活动预测序列。HMM通过建模活动时间序列上的状态转移概率来改善预测准确性，例如降低从坐姿直接转换为骑行的不合理预测。最终模型在完全独立于训练和自训练数据的臂3预留数据集上进行测试验证。

研究结果

整体性能方面，腕部自训练模型整体准确率为91.8%（SD=6.8%），Kappa统计量为81.4（SD=12.1），整体F1分数为88.2（SD=9.6）；大腿自训练模型整体准确率为95.1%（SD=5.4%），Kappa统计量为90.2（SD=10.6），F1分数为90.1（SD=9.3）。

等效性检验结果显示，腕部和大腿自训练随机森林分类器对六种活动或姿势类别中的五种均与地面真实视频直接观察数据具有统计学等效性，唯独爬楼梯未达到等效标准门阀。尽管爬楼梯的置信区间跨越零点，提示预测与真实值无统计学差异，但由于同时跨越了预设的上限边界，故不能认为具有统计等效性。具体而言，腕部分类器对坐姿和站立分别高估3.5分钟（90%置信区间CI=-26.3, 33.40）和2.6分钟（-12.1, 17.3），步行低估1.3分钟（-10, 12）；大腿分类器对应值分别为坐姿0.8分钟（-24.9, 26.5）、站立2.6分钟（-12.1, 17.3）、步行1.1分钟（-10.2, 12.4）。

混淆矩阵热图显示，腕部分类器对坐姿、步行、跑步/高强度活动和骑行的识别准确率达良好至优秀水平（88%?97%），站立和爬楼梯为良好（71%?78%）。站立的主要误判为静止站立时被识别为坐姿；爬楼梯的主要误判为在10秒窗口内爬楼梯与步行交替时被识别为步行。大腿分类器对坐姿、站立、步行和跑步/高强度活动的识别达优秀水平（91%?98%），爬楼梯为中等至良好（76%），骑行为良好至优秀（75%?83%）。大腿爬楼梯的主要误判为步行，骑行的主要误判为间歇性停止踩踏时的站立。

Bland-Altman分析表明，腕部和大腿自训练随机森林分类器与视频直接观察地面真实数据在各活动和姿势上总体具有良好的一致性，均值偏倚极小（<5分钟），且未观察到系统性偏倚。步行和跑步/高强度活动与地面数据的一致性最强，置信区间最窄；腕部的坐姿和站立变异相对较大（置信限约-26分钟至31分钟），大腿同类指标变异较小（-13分钟至16分钟）。腕部与大腿估计值之间的绝对标准差（AbsSD）和变异系数显示：坐姿AbsSD=6.1分钟（CV=0.78）、站立11.0分钟（0.140）、步行2.3分钟（0.063）、爬楼梯0.2分钟（0.041）、跑步0.4分钟（0.022）、骑行1.6分钟（0.083）。

与传统监督随机森林分类器的比较显示，两者在混淆矩阵和分类错误模式上高度相似，各活动类别的敏感度、特异度和F分数差异不超过5%。

讨论与结论

研究人员认为，本研究开发和评估的自训练活动分类器在协调腕部和 thigh-worn 设备的活动类型与姿势数据方面具有相当大的潜力。该研究凸显了结合自训练半监督学习技术与自由生活地面真实数据的价值，这为ProPASS等联盟及其他观察性或临床研究数据整合资源中可穿戴设备数据的池化分析开辟了新的可能性。协调不同佩戴位置的方法学进步将支持规模化高效分类器开发，从而充分利用可穿戴设备捕获的丰富信息。

研究强调，协调腕部和 thigh-worn 设备对推动可穿戴数据整合具有双重关键价值：其一，提升人群监测和干预研究中身体活动与姿势评估的精度；其二，支持更详细的观察性分析，探究身体活动与姿势模式与死亡率及非传染性疾病的关联，进而助力制定基于可穿戴设备数据的循证身体活动指南和政策。此外，方法学灵活性允许新研究根据成本效益、参与者依从性及数据质量选择最优佩戴位置，而不必牺牲跨研究可比性。

讨论部分亦指出自训练方法的潜在局限：早期错误分类可能通过伪标签传播，且模型性能取决于自由生活训练样本对目标人群的代表性。本研究采用相对严格的置信度阈值（80%）和较宽泛的成人年龄段（30?75岁），但对于该年龄段以外的人群（如儿童、青少年或行动不便的成年人），模型泛化能力可能受限。未来研究应在多样化人群中评估协调方法，并探索替代或补充的半监督策略以进一步减轻伪标签偏倚。尽管爬楼梯未达到统计等效，但其微不足道的绝对持续时间差异和低变异系数表明在人群水平研究中不太具有实际相关性。

研究同时展望了未来研究方向：开发针对身体活动强度、睡眠时长/质量及步数计数等维度的协调方法；应用ComBat和CovBat等技术进一步校正不同佩戴位置间的批次效应；以及构建基于联邦学习（federated learning）框架的可扩展、开源、灵活的协调管道，使联盟能够在不共享原始数据的前提下协作训练适应性机器学习模型，从而确保参与者隐私和数据安全。

研究结论：通过利用自训练半监督学习技术、自由生活地面真实数据以及灵活协调方法，研究人员证明了腕部和 thigh-worn 加速度计在量化身体活动类型和姿势方面具有高度一致性。研究结果支持在采用此类分类方法时，池化腕部和 thigh-worn 可穿戴设备数据的可行性与科学严谨性。半监督学习减少了对劳动密集型标注数据集的依赖，与可穿戴研究领域优先考虑可扩展、真实世界数据利用以开发机器学习模型的广泛趋势相一致。这些协调和模型开发方法学的改进，将使得不同佩戴位置数据的池化应用于前瞻性荟萃分析和个体参与者数据分析成为可能，从而充分释放可穿戴数据潜力，强化身体活动与健康研究。

联系信箱：

粤ICP备09063491号

热点排行