
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在老年患者药物精简决策中的应用:急诊科多药联用风险识别与临床验证研究
【字体: 大 中 小 】 时间:2025年05月27日 来源:JMIR Aging 5.0
编辑推荐:
为解决老年急诊患者多药联用(Polypharmacy)导致的潜在不适当用药(PIMs)问题,耶鲁大学团队开展了一项回顾性队列研究,评估GPT-4o模型基于Beers/STOPP/GEMS-Rx三种标准识别药物精简(Deprescribing)机会的能力。研究发现LLM在筛选适用标准阶段表现优异(阳性预测值0.83),但在具体推荐阶段存在过度推荐倾向(阳性预测值0.47),揭示了人工智能辅助临床决策的潜力与当前局限。该研究为优化人机协作的老年用药安全体系提供了重要证据。
在老龄化社会背景下,老年患者多药联用(Polypharmacy)现象日益普遍,约30%的65岁以上老年人同时使用≥5种药物。这种用药模式虽然可能治疗多种慢性病,但也显著增加了药物不良事件(Adverse Drug Events)、跌倒风险及急诊就诊率。药物精简(Deprescribing)作为系统性停用潜在不适当用药(Potentially Inappropriate Medications, PIMs)的解决方案,其临床实施却面临巨大挑战——传统工具如Beers标准、老年人处方筛查工具(STOPP)等包含大量复杂条款,急诊科(ED)医师在时间压力下难以完整应用。更棘手的是,现有电子临床决策支持系统(CDS)需要人工编码海量规则,且无法有效解析病历中的非结构化文本信息。
耶鲁大学研究团队在《JMIR Aging》发表的研究创新性地探索了大型语言模型(LLM)的解决方案。通过回顾性分析2022年1-3月美国东北部某大型学术医疗中心的急诊老年患者数据,研究人员构建了GPT-4o驱动的两阶段分析框架:先筛选符合81项高价值标准的药物,再结合结构化/非结构化电子健康记录(EHR)数据给出精简建议。研究采用医学学生标注-急诊医师仲裁的黄金标准,并创新性测试了链式思维(Chain-of-Thought)和一致性置信度(Consistency-based Confidence)两种选择性预测方法。
关键技术方法包括:1) 基于专家共识从180项原始标准筛选81项高价值标准;2) 两阶段LLM处理流程(标准筛选+具体推荐);3) 选择性预测技术评估模型置信度校准;4) 对626种口服药物进行医学学生-急诊医师双盲标注。
研究结果揭示:
【患者队列】纳入92名患者(平均75.8岁)的626种口服药物,最常见为他汀类(6.8%)和质子泵抑制剂(4.6%)。
【标准筛选效能】LLM在识别适用标准药物时显著优于医学生(F1-score 0.86 vs 0.59, P=0.015),阳性预测值达0.83。但STOPP标准因需要更多非结构化数据,其适用率(45.9%)低于Beers标准(62.5%)。
【推荐准确性】具体推荐阶段表现下降(F1-score 0.58),54.5%错误源于复杂纳入/排除条件误判,39.3%因临床信息缺失。典型案例如将慢性肾病误判为噻嗪类利尿剂停用指征。
【置信度校准】一致性加权法虽将推荐F1-score提升至0.73,但模型存在系统性过度自信(最低置信度54.5%),限制选择性预测效果。
讨论部分指出三个关键启示:首先,LLM作为"筛选助手"的价值已获证实,能有效缩小需人工复核的药物范围。其次,当前标准设计缺陷(如"预期寿命<3年"等模糊条款)严重制约AI性能,需要开发CDS专用版本。最后,人机协作应采用"LLM初筛+医师终审"模式,既发挥AI处理结构化数据优势,又保留临床判断处理复杂情境的能力。
这项研究为智能用药安全领域树立了重要里程碑:不仅验证了LLM在真实临床场景的应用潜力,更通过严谨的错误分析揭示了改进方向。未来需重点解决标准模糊性、模型校准度和人机交互设计三大瓶颈,才能真正实现人工智能赋能老年用药安全的愿景。值得注意的是,研究发现的"过度推荐"倾向警示我们:在抗凝药等高风险领域,必须设置严格的人工复核机制,这与FDA关于AI辅助决策的最新监管方向不谋而合。
生物通微信公众号
知名企业招聘