基于大语言模型代理的可穿戴数据个人健康洞察生成系统PHIA的构建与评估

《Nature Communications》:Transforming wearable data into personal health insights using large language model agents

【字体: 时间:2026年01月13日 来源:Nature Communications 15.7

编辑推荐:

  本文推荐一项针对可穿戴设备数据难以转化为个性化健康洞察的挑战性研究。Google Research团队开发了个人健康洞察代理PHIA,该系统利用大语言模型代理框架,结合代码生成和网络搜索工具,实现对多维、连续、纵向的可穿戴数据进行多步推理分析。研究通过创建包含4000多个健康洞察问题的基准数据集,并进行了650小时的人类专家评估,结果表明PHIA在客观数值问题上的准确率达到84%,在开放式问题上获得83%的有利评级,其推理质量显著优于传统代码生成基线。这项工作为推进行为健康领域发展提供了新范式,使个人能够更易理解自身健康数据,开启了个性化、数据驱动健康管理的新时代。

  
在当今数字化健康时代,智能手表和健身追踪器等可穿戴设备已融入日常生活,持续记录着我们的步数、心率、睡眠阶段等海量生理行为数据。这些设备生成的数据具有多维度、连续性和长期性特点,能够捕捉到在自然生活状态下而非临床环境中的精细生理行为观察。研究表明,身体活动模式和睡眠质量对健康有着显著影响,强调了可穿戴设备数据在揭示个性化健康洞察和促进积极行为改变方面的巨大潜力。例如,设备测量的身体活动能量消耗每增加5 kJ/kg/天,过早死亡风险降低37%;一项大型荟萃分析表明,活动追踪器可以改善身体活动并促进减肥,使用者每天多走1800步。
然而,从这些复杂的可穿戴数据中提取有意义的个人健康洞察并非易事。当前的可穿戴健康追踪器通常仅提供个人健康行为的通用摘要,如汇总的每日步数或估计的睡眠质量,但未能促进生成针对个体用户需求和兴趣的交互式、个性化健康洞察。即使是一个看似简单的用户问题,例如“我锻炼后睡眠是否更好?”,也涉及一系列复杂的分析步骤:检查数据可用性、选择适当指标、总结活跃日的睡眠质量、在个人更广泛的健康档案中背景化这些发现,并整合人群规范知识以提供量身定制的建议。这些步骤需要强大的数值分析能力和对健康的解释性理解,而当前系统缺乏这种能力。
先前的研究主要集中在理解可穿戴用户的需求并通过可视化等常规方式促进数据探索。尽管一些研究探索了使用可视化帮助用户解释数据,但大语言模型的出现为交互式分析提供了新范式。LLM在健康领域展现出广泛的应用前景,包括医学问答、医学教育、电子健康记录分析、心理健康干预、医学图像和评估解释以及生成诊断。然而,尽管LLM能力广泛,将其应用于精细的个人健康数据仍然是一个重大挑战。当前的LLM经常难以完成时间序列分析所需的数值推理,因此之前的努力依赖于预先聚合的、专家定义的统计摘要,而不是支持对原始数据进行直接、细致的分析。
为了应对这一挑战,Google Research的研究团队在《Nature Communications》上发表了题为“使用大语言模型代理将可穿戴数据转化为个人健康洞察”的研究论文,引入了个人健康洞察代理(PHIA)。这是第一个由LLM驱动的代理支持的开放式问答系统,专为对个人可穿戴数据进行细致推理而设计。PHIA利用最先进的代理框架,结合多步迭代推理、用于直接数据分析的代码生成以及网络搜索集成,能够自主执行复杂分析,并对数千个不同的健康查询生成准确、上下文感知的响应。
研究人员通过一项650小时的人工评估(涉及19名人类注释者对6000多个模型响应进行评估)以及16000个模型响应的自动评估,证明了这种代理方法的优越性。为了促进未来研究,团队还发布了一个从大量匿名生产数据中采样的高保真合成可穿戴数据集和一个个人健康洞察评估数据集,包含4000多个封闭式和开放式问题,涵盖多个领域,用于自动和人工评估。
关键技术方法
本研究构建的PHIA系统核心在于其代理框架,它嵌入了LLM(本研究固定使用Gemini 1.0 Ultra),使其能够通过一组工具与外部世界交互。该框架基于ReAct代理范式,模型在接收到查询后循环三个顺序阶段:思考(Thought)、行动(Act)和观察(Observe)。在思考阶段,模型整合当前上下文和先前输出来制定解决问题的计划;在行动阶段,LLM通过向其辅助工具分派命令来实施其策略;在观察阶段,将这些工具的输出纳入模型的上下文,丰富其响应能力。
PHIA的关键工具包括用于可穿戴表格数据分析的Python代码解释器(利用Pandas库)和用于扩展代理健康领域知识的Google搜索API。与直接使用LLM进行数值推理相比,基于代码生成的数值结果是事实性的,并能可靠地保持算术精度。此外,这种方法有助于降低泄露用户原始数据的风险,因为语言模型只接触分析结果(通常是聚合信息或趋势)。PHIA还通过基于网络的搜索机制集成最新健康信息,从可靠来源检索和解释内容,从而直接归因于网络来源,增强可信度,并提供最新的数据。
为了增强代理性能,研究采用了少样本提示技术,通过K-means聚类从数据集中选择具有代表性的查询,并为每个选定的查询精心制作一个ReAct轨迹(Thought->Action->Observation),演示如何通过迭代规划、代码生成和网络搜索产生高质量响应。
主要研究结果
在客观个人健康查询评估中,PHIA在4000个查询上达到了84%的精确匹配准确率,显著优于代码生成基线(74%准确率)和数值推理基线(22%准确率)。这表明代理框架的复杂性和迭代推理显著增强了数值查询的性能。
在开放式推理方面,人工评估显示PHIA在除两个维度外的所有维度上都比代码生成基线有显著改进。最值得注意的是,PHIA的总体推理评分(68)远高于代码生成基线(52)。注释者对83%的PHIA响应评为“一般”(Likert评分为“3”)或更好。PHIA在领域知识类别(63 vs 38)和逻辑方面的改进尤为显著。分析发现,在通用知识和与人群比较类查询中,PHIA的表现差异最大,这很可能归因于PHIA能够查询网络搜索以获取外部信息,并通过思考步骤迭代地、交互地推理其内部参数知识。
专家评估结果表明,PHIA在整体代码质量、避免幻觉和个性化方面优于代码生成基线。尽管在其他感知代码质量指标上的差异不显著,但PHIA生成代码的出错率仅为代码生成基线的一半(0.192 vs 0.395)。考虑到两种方法使用相同的基础语言模型,这种差异的程度尤其令人惊讶。这意味着PHIA在第一个思考步骤进行战略规划并通过其余思考步骤对其输出进行迭代推理的能力,最大限度地减少了容易出错的代码生成。
另一个显著优势是PHIA的代理框架能够从错误中恢复。PHIA在11.4%的情况下能够通过解释其错误并在后续步骤中纠正来恢复,而代码生成基线由于缺乏对自身结果做出反应的能力,其恢复率为零。这表明基于代理的方法如PHIA在致命代码错误方面更加稳定。PHIA在复杂表格推理操作(如时间序列索引和连接多个表)上出错的可能性要小得多,也不太可能产生幻觉响应或误解输入数据。
定性分析揭示了注释者优先考虑个性化和领域知识。所有注释者一致认为,数值洞察和指标的存在使他们给予个性化更高的评分。注释者持续强调在没有完整用户上下文的情况下准确评估模型响应的困难性。相关且权威的领域知识的纳入持续提升了模型响应的感知质量。注释者对潜在危害(尤其是医疗建议方面)表现出高度警惕,他们倾向于谨慎的响应,并强调模型在适当时有责任听从医疗保健专业人员。
研究结论与意义
这项研究结果表明,PHIA凭借其迭代和交互式规划及工具推理能力,能有效分析和解释个人健康数据。PHIA在客观个人健康洞察查询上表现出强大性能,比两种常用基线分别高出282%和14%。这种改进延伸到复杂的开放式查询,即使面对相同的基LLM,PHIA通过其高级规划能力和执行内部知识迭代推理及与外部工具交互的选项,展现出卓越的推理能力。
尽管PHIA的高级推理能力提供了显著优势,但确保这些系统设计有强大的安全措施以防止误用或意外后果至关重要。人工评估表明,PHIA能够避免有害响应并拒绝回答非预期的查询(如临床诊断),展示了系统的稳健安全性。
这项工作代表了使个人能够从自己的可穿戴数据中得出有意义的结论的重要一步。鉴于睡眠和身体活动等行为对人群健康至关重要,PHIA展示了语言模型代理如何通过使个性化洞察更易获取来赋能用户。然而,研究人员强调PHIA仅是一个起点。随着LLM的不断改进,未来的代理可以扩展到分析医疗记录、帮助用户与临床团队沟通,或识别更严重疾病的早期预警信号。最终,代理有潜力通过使个人能够从自己的数据中得出并交流准确的结论,来改变个人健康管理方式。
需要注意的是,本研究存在一些局限性。例如,未通过现实世界部署研究来评估PHIA对行为改变和其他健康结果的潜在影响;建议的真实性未经医学专家评估;PHIA的工具集目前有限但易于扩展;研究涉及策划查询和可穿戴数据集的主观阈值等。未来的工作需要通过临床试验评估代理方法的有效性,并验证PHIA建议的实际影响。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号