AgentMD:基于大规模临床工具学习的语言智能体在医疗风险预测中的突破与应用

《Nature Communications》:AgentMD: Empowering language agents for risk prediction with large-scale clinical tool learning

【字体: 时间:2025年10月24日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对临床计算器使用效率低、整合困难等问题,开发了AgentMD语言智能体框架,通过自动从PubMed文献中构建2,164个可执行临床计算器(RiskCalcs工具库),并实现精准的工具选择与风险计算。实验表明,AgentMD在RiskQA基准测试中准确率达87.7%(GPT-4仅为40.9%),在真实急诊病历和MIMIC-III队列中分别验证了个体与群体层面风险预测的有效性,为临床决策支持和大规模健康分析提供了新范式。

  
在当今医疗实践中,临床计算器(clinical calculators)已成为辅助医生进行疾病风险分层和预后评估的重要工具。例如广泛应用的HEART评分(HEART Score)通过整合患者病史、心电图、年龄、风险因素和肌钙蛋白值,有效预测主要不良心脏事件风险。然而,这些工具的临床应用仍面临多重挑战:医生需熟记大量计算器的适用场景和参数规则,且工具之间缺乏协同使用;手动输入电子健康记录(EHR)数据不仅降低效率,还可能引入误差;此外,许多重要计算器仅存在于学术文献中,未能转化为可即时调用的数字化工具。
为解决上述问题,由美国国立卫生研究院国家医学图书馆(National Library of Medicine)领衔的研究团队在《Nature Communications》发表了题为"AgentMD: Empowering language agents for risk prediction with large-scale clinical tool learning"的研究。该研究开发了AgentMD框架,通过语言智能体(language agents)技术实现临床计算器的自动化构建与精准应用。
研究团队首先从PubMed中筛选出2000-2023年间33,033篇可能描述风险计算器的文献,利用GPT-4将其转化为结构化计算器工具。经过六项标准的质量验证后,最终构建包含2,164个计算器的RiskCalcs工具库。这些工具涵盖从常见急症到罕见病的风险评估,其中68%的高引计算器在MDCalc等主流平台已有在线版本,而随机抽样显示96%的计算器为首次实现数字化转换。
作为工具使用者,AgentMD通过三步流程实现风险计算:首先基于MedCPT检索与患者情况最相关的10个计算器,然后利用Python解释器执行参数提取与计算,最后生成风险评估报告。当病历信息缺失时,系统会自动进行最佳/最差情景的区间估计,确保结果的临床实用性。
在工具质量验证中,人工评估显示计算逻辑正确率达87.6%,结果解释准确率为89%。通过GPT-4生成的2,500组单元测试中,91.6%的计算结果与人工核算一致。特别设计的边界案例测试中,84%的通过率进一步证实了工具的可靠性。
在RiskQA专业测评(包含350道USMLE风格选择题)中,基于GPT-4的AgentMD准确率达到87.7%,显著优于直接使用GPT-4的链式思考(Chain-of-Thought)提示策略(40.9%)。值得注意的是,即使使用性能较低的GPT-3.5作为基础模型,AgentMD(54.6%)仍超越GPT-4的基线表现,证明工具学习策略的有效性。
在真实世界验证中,研究者选取耶鲁大学医学院急诊科698份病历,针对16种常用计算器进行测试。医生对80组高风险患者-计算器组合的评估显示:80.6%的患者符合计算器适用标准,其中计算过程正确或部分正确的比例达80.8%,结果被判定有临床价值的占比97.7%。仅HEART评分和加拿大颈椎规则(Canadian C-Spine Rule, CCR)因缺失值处理问题表现稍逊。
扩展到群体层面,AgentMD在MIMIC-III数据库的9,822份入院记录中应用了1,039个计算器。分析发现平均每位患者可适用4.6个计算器,而工具使用分布呈现长尾特征。通过特异性(specificity)、紧迫性(urgency)、严重性(severity)和缺失度(absence)四个维度的量化评分,系统成功识别出113个在院内死亡率预测中优于GPT-4的计算器,如高风险静脉曲张和非ST段抬高型心肌梗死(NSTEMI)评估工具。
关键技术方法包括:基于PubMed摘要的布尔搜索策略筛选潜在计算器文献;使用GPT-4进行工具描述结构化生成与自验证;通过MedCPT实现患者信息与计算器的语义匹配;结合Python解释器确保计算精度;在MIMIC-III和耶鲁急诊病历队列中进行个体/群体层面验证。
工具质量与覆盖度分析
对高引和随机抽样各50个工具评估表明,RiskCalcs在计算逻辑正确性(87.6%)和结果解释合理性(89.0%)方面表现稳定。单元测试通过率超90%,且覆盖了大量未在线实现的特色工具(如Euro-EWING 99试验计算器)。
RiskQA基准测试性能
AgentMD在工具选择环节准确率达82.3%(GPT-4基础),显著高于密集检索方法(72.3%)。端到端任务中展现出对复杂临床场景的推理能力,如正确选择慢性心力衰竭急性加重短期死亡率评估工具(EAHFE-3D量表)。
急诊病历个体化风险评估
针对急诊科常见计算器的应用评估显示,系统能有效处理真实病历中的信息缺失问题。除少数规则类工具外,大多数计算器在流程正确性(52.3%完全正确)和结果实用性(68.6%完全有用)方面获得临床医生认可。
群体健康分析应用
在MIMIC-III队列中,系统通过多指标排序实现了患者风险分层。例如对老年患者4年死亡率预测工具的应用发现,其风险分布与短期死亡率工具形成互补,为医院层面资源调配提供了新视角。
研究的创新性在于首次实现了临床计算器从文献挖掘到临床应用的完整自动化流程。然而,当前工具仅基于摘要信息构建,未来整合全文数据可进一步提升覆盖率。此外,GPT-4的高成本促使团队考虑Llama等开源模型替代方案。尽管在个体和群体层面验证效果显著,研究者强调仍需更全面的临床评估才能投入实际使用。
AgentMD通过将散落在文献中的临床知识转化为可执行工具,不仅提升了风险预测的准确性,更开创了"工具学习"(tool learning)在医疗领域的新范式。这种将语言智能体与专业领域工具相结合的方法,为应对医疗信息过载和决策复杂性提供了创新解决方案,有望推动精准医疗向更深层次发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号