生成式人工智能(Generative AI)赋能基层医疗的临床决策支持系统(CDSS)：一项实用性整群随机试验(Pragmatic Cluster-Randomized Trial)

《Nature Medicine》：Generative AI-enabled clinical decision support system in primary care: a pragmatic, cluster-randomized trial

【字体：大中小】 时间：2026年06月27日 来源：Nature Medicine 52.5

编辑推荐：

　　摘要：关于大语言模型(Large Language Model, LLM)在低资源真实世界临床环境中的表现，严谨证据仍然有限。研究人员在肯尼亚16家基层医疗设施开展了一项实用性整群随机试验(Cluster-Randomized Trial)。临床官员(Clin

摘要：关于大语言模型(Large Language Model, LLM)在低资源真实世界临床环境中的表现，严谨证据仍然有限。研究人员在肯尼亚16家基层医疗设施开展了一项实用性整群随机试验(Cluster-Randomized Trial)。临床官员(Clinical Officers)被随机分配使用带或不带LLM辅助的电子病历(Electronic Medical Record, EMR)系统。主要结局为入组14天内发生的经专家判定的治疗失败(Treatment Failure)复合事件。2025年4月22日至7月16日共纳入9,691例患者，由103名临床官员负责（干预组52人，对照组51人）。干预组4,693例患者中发生治疗失败102例(2.2%)，对照组4,654例中94例(2.0%)（校正优势比[Adjusted Odds Ratio, aOR] 0.77，95%置信区间[Confidence Interval, CI] 0.55–1.08，P=0.13）。两组主要结局无显著差异。未判定与研究干预相关的严重不良事件，不良事件的独立评审未发现安全性信号。本试验中，LLM辅助是安全的，但未降低14天内治疗失败率，若存在任何获益则很可能较微弱。

论文解读：生成式AI赋能基层医疗临床决策支持系统的实用性整群随机试验

该研究发表于《Nature Medicine》，针对撒哈拉以南非洲等低资源环境中基层医疗机构医生短缺、诊疗质量不均、传统规则型临床决策支持系统(Clinical Decision Support System, CDSS)僵化且难以融入真实工作流程的问题，探讨将生成式大语言模型(Large Language Model, LLM)嵌入电子病历(Electronic Medical Record, EMR)能否改善一线临床官员(Clinical Officer)的诊疗质量及患者结局。既往LLM在 vignette（病例模拟）研究中显示诊断潜能，但缺乏真实世界前瞻性干预证据，尤其缺乏在中低收入国家(Low- and Middle-Income Countries, LMICs)基层医疗中的随机对照试验证据。本研究以肯尼亚内罗毕和基安布郡Penda Health旗下16家基层诊所网络为现场，采用临床官员水平整群随机设计，评估LLM辅助（"AI Consult"基于GPT-4o）对比常规EMR使用对14天治疗失败率的影响，并综合评价临床文书质量、处方行为、哨兵疾病管理、患者满意度及安全性。

主要关键技术方法：

研究为实用性整群随机对照试验，整群单位为临床官员（干预组52人，对照组51人），患者嵌套于临床官员及机构中。干预组EMR内嵌基于GPT-4o（温度0.1，top-p 1.0，最大输出1024 token）的LLM-CDSS（"AI Consult 2.0"），自动分析结构化及自由文本临床字段（去标识化）生成三色警示（绿/黄/红）及诊疗建议，临床官员可自主采纳或修改；对照组使用相同EMR但禁用AI功能。纳入于2025年4月22日至7月16日期间由参研临床官员接诊且签署知情同意的门诊患者（排除纯健康体检、急危重症需立即转诊及无法随访者），基线预期治疗失败率2%、设计算得需约9,000例次。主要结局为入组14天内经盲态专家小组裁定的治疗失败（复诊未缓解、非计划升级至高级别救治或安全相关不良事件）；次要结局含文书质量（诊断恰当性、记录全面性、治疗方案恰当性）、抗生素及抗疟药合理使用、高血压/2型糖尿病/重度急性营养不良识别与管理、患者满意度、严重不良事件。统计分析采用混合效应Logistic回归考虑临床官员及机构聚类，贝叶斯多层模型估算合并效应及场所间异质性，按意向治疗(Intention-To-Treat, ITT)及符合方案集分析。

研究结果

Patient disposition（受试者流程）：

2025年4月22日至7月16日筛查17,626例，纳入分析9,702例次就诊，剔除退出(11)、失访(90)及可能导致分组错分的方案违背(254)后，ITT分析集为对照组4,654例、干预组4,693例。两组基线人口学及临床特征均衡，最常见首诊诊断为发热或感染性疾病(60%)。干预组每例次平均LLM调用成本约0.04美元。

Primary outcome（主要结局）：

干预组治疗失败102/4,693(2.2%)，对照组94/4,654(2.0%)，aOR 0.77（95% CI 0.55–1.08，P=0.13），按就诊特征额外校正后aOR 0.72（95% CI 0.50–1.03，P=0.07）。贝叶斯分析显示每处理1,000例患者平均减少5例治疗失败（均数风险差?0.005，95%可信区间[CrI] ?0.013~0.001），各机构点估计多倾向干预组但区间宽，机构间异质性低(τ=0.22)。主要结局组间无统计学显著差异。

Secondary outcomes（次要结局）：

Clinical documentation quality（临床文书质量）：

抽查2,000份就诊记录，LLM辅助组在诊断恰当性(aOR 1.74，95% CI 1.28–2.36，P<0.001)、记录全面性(aOR 1.68，95% CI 1.24–2.27，P<0.001)及治疗方案恰当性(aOR 1.71，95% CI 1.25–2.34，P<0.001)上均显著优于对照组。

Clinical safety（临床安全性）：

对1,000条触发红色警示的LLM输出行专家评审，49.4%评定为明确安全恰当，42.4%基本安全恰当，仅4.0%中性，3.1%稍不安全/不恰当，1.1%不安全/不恰当。临床官员完全采纳建议19.5%、部分采纳57.3%、不采纳23.2%；专家认为临床官员的不采纳/部分采纳决定仅28.4%具临床合理性。

Sentinel conditions（哨兵疾病条件）：

抗生素正确使用(aOR 0.86，95% CI 0.48–1.55)及抗疟药不正确使用(aOR 0.76，95% CI 0.17–3.43)两组无差异；成人高血压新诊断(aOR 0.85，95% CI 0.67–1.08)及治疗启动(aOR 0.68，95% CI 0.37–1.23)、儿童重度急性营养不良诊断(aOR 0.91，95% CI 0.50–1.64)及转诊营养师(aOR 1.14，95% CI 0.61–2.13)均无组间差异。对照组较干预组更易将患者划为2型糖尿病风险人群(aOR 0.88，95% CI 0.78–0.98，P=0.023)，但最终确诊后的治疗启动率相似，提示LLM可能协助将部分"风险"患者重新归类为已知糖尿病患者。

Patient satisfaction（患者满意度）：

826例完成调查者中两组满意度评分中位数均为4.0（IQR 4.0–5.0），高分满意度报告率相似(aOR 1.02，95% CI 0.70–1.49，P>0.9)；认为问诊时长合适的均为95%，事后分析示中位问诊时间两组均为11分钟（干预组IQR略宽，P=0.031）。

Safety（安全性）：

全研究发生33例严重不良事件（27例住院，6例死亡），独立评审确认与干预无关。死亡或住院复合事件对照组17例(0.4%)、干预组14例(0.3%)，aOR 0.77（95% CI 0.30–1.94，P=0.60），无显著差异。

Protocol deviations and violations（方案偏离与违背）：

记录921例次偏离/违背，主要为同一患者由未入组或多位临床官员接诊等日常流程因素，254例因可能致暴露/分组错分被排除于符合方案分析；45例因EMR配置错误短暂使对照组见到AI功能并及时纠正。

Post hoc analyses（事后分析）：

除抗生素相关费用干预组略低（均值差?0.15美元，95% CI ?0.25~?0.04）外，其余药品类别花费无差异。

讨论与结论：

本项在肯尼亚基层全科诊疗中嵌入生成式LLM的大规模实用性整群随机试验发现，LLM辅助未显著降低14天治疗失败率（aOR 0.77，95% CI 0.55–1.08，P=0.13），未发现与干预相关的严重安全性信号。LLM辅助显著提高了临床文书记录的诊断恰当性、全面性和治疗计划恰当性，轻微降低了抗生素相关药费，未改变患者满意度，临床官员保留自主决策权。由于基层医疗临床结局受社会决定因素及患者依从性等多重影响，且本试验治疗失败实际发生率低于预期导致检验效能有限，不能排除存在较小程度的临床获益；大而有临床意义的效应不太可能。研究局限性包括单城市私立诊所网络限制外推性、同一机构内潜在信息交流致轻微污染（偏向零假设）、基线是已实施质量改进的高标准环境可能压缩改善空间、14天随访较短及模型版本时效性。结论为：在此项整群随机试验中，生成式AI赋能的LLM临床决策支持系统应用于基层医疗是安全的，但未减少短期治疗失败事件，任何潜在获益即便存在也可能较微弱；更大型研究或更长随访有助于进一步明确细微临床效益。

热点排行