基于视觉语言模型降低体力活动研究中的标注负担:一项多中心验证研究

《Scientific Reports》:Reducing annotation burden in physical activity research using vision language models

【字体: 时间:2025年10月25日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对可穿戴设备在自由生活场景中体力活动行为标注成本高、隐私敏感的问题,探索了开源视觉语言模型(VLM)在自动标注活动强度类别(SB、LIPA、MVPA)中的应用。通过对比三种VLM与两种判别模型在牛津郡(英国)和四川(中国)两大队列中的表现,研究发现最优VLM(LLaVA)与微调判别模型(ViT)在标注静坐行为(SB)时性能相当(F1-score: VLM=0.89, DM=0.91),但轻中度活动(LIPA/MVPA)预测性能下降且跨群体泛化能力有限(Cohen's k从0.54降至0.26)。该工作为降低自由生活研究中摄像头标注负担提供了可行路径,尤其适用于静坐行为占主导的场景。

  
在健康研究领域,精准监测日常体力活动强度是理解运动与疾病关系、评估干预效果的关键。然而,传统基于实验室的测量方法(如间接量热法)难以在自由生活场景中大规模应用,而可穿戴设备(如加速度计)的验证需依赖人工标注的“金标准”。当前,佩戴式摄像头已成为获取自由生活环境下真实活动标签的重要工具,但海量图像的人工标注不仅耗时费力,还涉及隐私保护难题。能否利用人工智能技术减少对人工标注的依赖,成为推动该领域发展的核心挑战之一。
为此,牛津大学联合成都医学院的研究团队在《Scientific Reports》发表论文,首次系统评估了开源视觉语言模型(Vision Language Models, VLM)在自动识别活动强度类别中的潜力。研究聚焦三类健康研究中广泛采用的活动强度:静坐行为(Sedentary Behaviour, SB,≤1.5 METs)、轻强度体力活动(Light Intensity Physical Activity, LIPA,<3 METs)和中高强度体力活动(Moderate-to-Vigorous Physical Activity, MVPA,≥3 METs)。团队选取两个大规模自由生活验证研究——英国牛津郡的CAPTURE24研究(161名参与者)和中国四川的CAPTURE24-CN研究(111名参与者),使用OMG Life Autographer摄像头采集的稀疏时序图像(牛津郡平均24秒/帧,四川84秒/帧)作为数据基础。
研究对比了三类VLM(生成式模型LLaVA、BLIP2和双编码器模型CLIP)与两种经微调的判别模型(基于ResNet-50和CLIP视觉编码器ViT)的性能。通过超参数随机搜索优化模型,并在未见过的参与者及跨地域队列中测试泛化能力。关键技术方法包括:利用提示工程(Prompt Engineering)引导VLM输出活动描述,通过句子嵌入模型(Sentence-BERT)将自然语言响应映射至强度类别;对判别模型采用迁移学习与早停策略;使用TrivialAugment进行数据增强;并首次引入基于序列的ResNet-LSTM模型捕捉时序信息。
模型性能比较
在牛津郡研究的测试集上,最佳VLM(LLaVA)与判别模型(ViT)对SB的预测性能接近人类标注水平(F1-score: LLaVA=0.89, ViT=0.91),但LIPA和MVPA的预测精度显著下降(F1-score: LIPA=0.60–0.70, MVPA=0.66–0.72)。
跨群体验证揭示严峻挑战:当模型应用于四川研究时,所有强度类别的性能均大幅下滑(Cohen's k:LLaVA从0.54降至0.26,ViT从0.67降至0.19),凸显了自由生活数据分布差异对模型泛化的影响。
时序建模的潜力
尽管研究聚焦单图像模型,ResNet-LSTM序列模型在牛津郡和四川研究中均表现出略优于单帧模型的性能(Cohen's k分别为0.66和0.31),表明融合时序信息可提升稀疏图像序列的标注可靠性。
标注质量与模型局限
研究发现,图像的低捕获率(尤其四川研究帧间隔达84秒)及大量模糊/暗光图像(四川研究未标注图像占比65.2%)严重制约标注质量。VLM在暗光图像上性能显著下降(LLaVA的Cohen's k降至0.31),反映环境因素是模型与人工标注的共同瓶颈。此外,VLM的提示词设计显著影响性能:使用 colloquial 活动描述(如“行走”“坐立”)替代专业术语(如“静坐行为”)能提升映射准确性,但存在语义失配风险(如模型响应“烹饪”被错误映射至LIPA)。
结论与展望
本研究证实,当前开源VLM可有效辅助标注自由生活研究中的静坐行为(SB)——日常活动中最普遍的类别,但在轻中度活动识别及跨群体应用时仍需谨慎。尽管性能尚未完全取代人工标注,其80.9%的整体准确率(牛津郡测试集)已显现实用潜力。研究呼吁未来验证研究采用高帧率可穿戴摄像头(如视频模式)以降低标注不确定性,并开发融合时序信息的多模态模型。VLM的推广不仅可加速大型生物银行(如UK Biobank)的体力活动数据标注,也为联合监测环境暴露、社交行为等健康相关指标开辟了新路径。
意义总结
这项工作首次将视觉语言模型应用于自由生活体力活动强度标注,为降低健康研究中验证数据的人工成本提供了可行方案。尽管跨群体泛化仍是挑战,但模型在静坐行为识别上的稳健性预示了其在大型流行病学研究中辅助标注的价值。随着通用视觉模型能力的持续进化,结合主动学习(Active Learning)、持续学习(Continual Learning)等技术的动态标注框架,有望进一步推动可穿戴健康监测在真实世界中的规模化应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号