生成式人工智能(Generative AI)赋能基层医疗的临床决策支持系统(CDSS):一项实用性整群随机试验(Pragmatic Cluster-Randomized Trial)
《Nature Medicine》:Generative AI-enabled clinical decision support system in primary care: a pragmatic, cluster-randomized trial
编辑推荐:
摘要:关于大语言模型(Large Language Model, LLM)在低资源真实世界临床环境中的表现,严谨证据仍然有限。研究人员在肯尼亚16家基层医疗设施开展了一项实用性整群随机试验(Cluster-Randomized Trial)。临床官员(Clin
摘要:关于大语言模型(Large Language Model, LLM)在低资源真实世界临床环境中的表现,严谨证据仍然有限。研究人员在肯尼亚16家基层医疗设施开展了一项实用性整群随机试验(Cluster-Randomized Trial)。临床官员(Clinical Officers)被随机分配使用带或不带LLM辅助的电子病历(Electronic Medical Record, EMR)系统。主要结局为入组14天内发生的经专家判定的治疗失败(Treatment Failure)复合事件。2025年4月22日至7月16日共纳入9,691例患者,由103名临床官员负责(干预组52人,对照组51人)。干预组4,693例患者中发生治疗失败102例(2.2%),对照组4,654例中94例(2.0%)(校正优势比[Adjusted Odds Ratio, aOR] 0.77,95%置信区间[Confidence Interval, CI] 0.55–1.08,P=0.13)。两组主要结局无显著差异。未判定与研究干预相关的严重不良事件,不良事件的独立评审未发现安全性信号。本试验中,LLM辅助是安全的,但未降低14天内治疗失败率,若存在任何获益则很可能较微弱。
论文解读:生成式AI赋能基层医疗临床决策支持系统的实用性整群随机试验
该研究发表于《Nature Medicine》,针对撒哈拉以南非洲等低资源环境中基层医疗机构医生短缺、诊疗质量不均、传统规则型临床决策支持系统(Clinical Decision Support System, CDSS)僵化且难以融入真实工作流程的问题,探讨将生成式大语言模型(Large Language Model, LLM)嵌入电子病历(Electronic Medical Record, EMR)能否改善一线临床官员(Clinical Officer)的诊疗质量及患者结局。既往LLM在 vignette(病例模拟)研究中显示诊断潜能,但缺乏真实世界前瞻性干预证据,尤其缺乏在中低收入国家(Low- and Middle-Income Countries, LMICs)基层医疗中的随机对照试验证据。本研究以肯尼亚内罗毕和基安布郡Penda Health旗下16家基层诊所网络为现场,采用临床官员水平整群随机设计,评估LLM辅助("AI Consult"基于GPT-4o)对比常规EMR使用对14天治疗失败率的影响,并综合评价临床文书质量、处方行为、哨兵疾病管理、患者满意度及安全性。
主要关键技术方法:
研究为实用性整群随机对照试验,整群单位为临床官员(干预组52人,对照组51人),患者嵌套于临床官员及机构中。干预组EMR内嵌基于GPT-4o(温度0.1,top-p 1.0,最大输出1024 token)的LLM-CDSS("AI Consult 2.0"),自动分析结构化及自由文本临床字段(去标识化)生成三色警示(绿/黄/红)及诊疗建议,临床官员可自主采纳或修改;对照组使用相同EMR但禁用AI功能。纳入于2025年4月22日至7月16日期间由参研临床官员接诊且签署知情同意的门诊患者(排除纯健康体检、急危重症需立即转诊及无法随访者),基线预期治疗失败率2%、设计算得需约9,000例次。主要结局为入组14天内经盲态专家小组裁定的治疗失败(复诊未缓解、非计划升级至高级别救治或安全相关不良事件);次要结局含文书质量(诊断恰当性、记录全面性、治疗方案恰当性)、抗生素及抗疟药合理使用、高血压/2型糖尿病/重度急性营养不良识别与管理、患者满意度、严重不良事件。统计分析采用混合效应Logistic回归考虑临床官员及机构聚类,贝叶斯多层模型估算合并效应及场所间异质性,按意向治疗(Intention-To-Treat, ITT)及符合方案集分析。
研究结果
Patient disposition(受试者流程):
2025年4月22日至7月16日筛查17,626例,纳入分析9,702例次就诊,剔除退出(11)、失访(90)及可能导致分组错分的方案违背(254)后,ITT分析集为对照组4,654例、干预组4,693例。两组基线人口学及临床特征均衡,最常见首诊诊断为发热或感染性疾病(60%)。干预组每例次平均LLM调用成本约0.04美元。
Primary outcome(主要结局):
干预组治疗失败102/4,693(2.2%),对照组94/4,654(2.0%),aOR 0.77(95% CI 0.55–1.08,P=0.13),按就诊特征额外校正后aOR 0.72(95% CI 0.50–1.03,P=0.07)。贝叶斯分析显示每处理1,000例患者平均减少5例治疗失败(均数风险差?0.005,95%可信区间[CrI] ?0.013~0.001),各机构点估计多倾向干预组但区间宽,机构间异质性低(τ=0.22)。主要结局组间无统计学显著差异。
Secondary outcomes(次要结局):
Clinical documentation quality(临床文书质量):
抽查2,000份就诊记录,LLM辅助组在诊断恰当性(aOR 1.74,95% CI 1.28–2.36,P<0.001)、记录全面性(aOR 1.68,95% CI 1.24–2.27,P<0.001)及治疗方案恰当性(aOR 1.71,95% CI 1.25–2.34,P<0.001)上均显著优于对照组。
Clinical safety(临床安全性):
对1,000条触发红色警示的LLM输出行专家评审,49.4%评定为明确安全恰当,42.4%基本安全恰当,仅4.0%中性,3.1%稍不安全/不恰当,1.1%不安全/不恰当。临床官员完全采纳建议19.5%、部分采纳57.3%、不采纳23.2%;专家认为临床官员的不采纳/部分采纳决定仅28.4%具临床合理性。
Sentinel conditions(哨兵疾病条件):
抗生素正确使用(aOR 0.86,95% CI 0.48–1.55)及抗疟药不正确使用(aOR 0.76,95% CI 0.17–3.43)两组无差异;成人高血压新诊断(aOR 0.85,95% CI 0.67–1.08)及治疗启动(aOR 0.68,95% CI 0.37–1.23)、儿童重度急性营养不良诊断(aOR 0.91,95% CI 0.50–1.64)及转诊营养师(aOR 1.14,95% CI 0.61–2.13)均无组间差异。对照组较干预组更易将患者划为2型糖尿病风险人群(aOR 0.88,95% CI 0.78–0.98,P=0.023),但最终确诊后的治疗启动率相似,提示LLM可能协助将部分"风险"患者重新归类为已知糖尿病患者。
Patient satisfaction(患者满意度):
826例完成调查者中两组满意度评分中位数均为4.0(IQR 4.0–5.0),高分满意度报告率相似(aOR 1.02,95% CI 0.70–1.49,P>0.9);认为问诊时长合适的均为95%,事后分析示中位问诊时间两组均为11分钟(干预组IQR略宽,P=0.031)。
Safety(安全性):
全研究发生33例严重不良事件(27例住院,6例死亡),独立评审确认与干预无关。死亡或住院复合事件对照组17例(0.4%)、干预组14例(0.3%),aOR 0.77(95% CI 0.30–1.94,P=0.60),无显著差异。
Protocol deviations and violations(方案偏离与违背):
记录921例次偏离/违背,主要为同一患者由未入组或多位临床官员接诊等日常流程因素,254例因可能致暴露/分组错分被排除于符合方案分析;45例因EMR配置错误短暂使对照组见到AI功能并及时纠正。
Post hoc analyses(事后分析):
除抗生素相关费用干预组略低(均值差?0.15美元,95% CI ?0.25~?0.04)外,其余药品类别花费无差异。
讨论与结论:
本项在肯尼亚基层全科诊疗中嵌入生成式LLM的大规模实用性整群随机试验发现,LLM辅助未显著降低14天治疗失败率(aOR 0.77,95% CI 0.55–1.08,P=0.13),未发现与干预相关的严重安全性信号。LLM辅助显著提高了临床文书记录的诊断恰当性、全面性和治疗计划恰当性,轻微降低了抗生素相关药费,未改变患者满意度,临床官员保留自主决策权。由于基层医疗临床结局受社会决定因素及患者依从性等多重影响,且本试验治疗失败实际发生率低于预期导致检验效能有限,不能排除存在较小程度的临床获益;大而有临床意义的效应不太可能。研究局限性包括单城市私立诊所网络限制外推性、同一机构内潜在信息交流致轻微污染(偏向零假设)、基线是已实施质量改进的高标准环境可能压缩改善空间、14天随访较短及模型版本时效性。结论为:在此项整群随机试验中,生成式AI赋能的LLM临床决策支持系统应用于基层医疗是安全的,但未减少短期治疗失败事件,任何潜在获益即便存在也可能较微弱;更大型研究或更长随访有助于进一步明确细微临床效益。