《BMJ Quality & Safety》:AI-driven analysis of patient safety reports using large language models: an exploratory multiple methods study
编辑推荐:
本文创新性地应用大语言模型(LLM)对患者安全事件报告进行自动化分析,通过多方法验证显示GPT-4o在问题识别准确率达94%,分类一致性超83%。研究构建了包含19个主类/53个子类的本土化分类体系,并开发可视化仪表盘。质性访谈证实该工具能有效提升安全事件分析效率(IRS),为医疗质量改进(QI)提供数据驱动新范式。
研究背景与意义
患者安全始终是医疗系统的核心议题,自《To Err is Human》报告发布以来,尽管医疗系统普遍采用事件报告系统(IRS)进行安全监测,但约99.9%的低危害事件(包括近似错误事件NMEs和前兆安全事件PSEs)因人工审核成本过高而缺乏系统分析。传统方法依赖人工记忆和经验分类,存在效率低、一致性差等局限。大语言模型(LLM)的出现为解析非结构化文本提供了新可能,但其在患者安全领域的实际应用潜力尚未充分探索。
研究方法设计
本研究采用混合方法设计,定量评估LLM分析效能,质性探究实施可行性。选取OpenAI的GPT-4o模型,通过微软Azure平台安全处理9357份2012-2023年患者安全报告的自由文本字段。研究分五阶段推进:首先通过提示工程优化问题提取流程(详见附录A),模型从每份报告中提取多重安全问题;随后采用扎根理论生成无预设分类体系(附录B),经专家修订后形成19个主类别和53个子类别的本土化分类法;最终通过Tableau构建可视化仪表盘。验证阶段由患者安全专家随机抽样评估100份报告的问题识别准确性,以及219个问题的分类标注一致性。
模型性能验证结果
定量分析显示,LLM问题识别与专家评审的平均一致率达94%(95% CI 90.6%-97.4%),主类别和子类别标注准确率分别为91.5%和83.3%。分类体系适用性良好,仅0.2%问题被归为“其他”类别。评审员间一致性系数(AC1)达0.91(问题识别)和0.74(子类标注),表明模型输出可靠性较高。典型误差案例包括将打印机故障导致的输血问题误标为“血液管理错误”而非“设备问题”,反映分类边界判断的复杂性。
质性研究洞察
对10名质量安全专家的访谈揭示三大核心实施成果:在适当性方面,LLM输出能有效整合至工作流程,帮助快速识别系统级风险;可接受性方面,受访者肯定信息简洁性与价值,同时建议优化仪表盘交互设计;采纳意愿方面,参与者表现出高度积极性,期望利用模型发现单元级趋势并指导质量改进项目。一位质量改进专家表示:“这些结果能帮助我们将被动响应转为主动预防。”
实践应用价值
本研究证实LLM可突破传统分析瓶颈,实现三大转变:一是从人工抽样审核转向全量数据分析,使低危害事件的价值挖掘成为可能;二是从事后归因转向风险预警,通过模式识别提前干预系统漏洞;三是从分散管理转向协同治理,借助标准化分类促进跨部门质量改进。例如模型成功识别出既往被忽视的重复设备问题,为资源调配提供依据。
局限与展望
研究存在单中心数据偏差、样本量有限等局限。未来需探索多中心验证、模型泛化能力及长期效能维持策略。同时,LLM的幻觉风险与数据漂移问题强调持续人工监督的必要性。如何将此类工具无缝整合至临床工作流,仍需结合实施科学框架进行深度优化。
结论
LLM驱动的患者安全分析不仅技术可行,更具备显著的实践应用潜力。通过将海量叙事文本转化为可操作洞察,其为医疗系统实现从“被动响应”到“主动预防”的范式转型提供了关键技术支撑。这种数据驱动的方法有望重塑患者安全管理格局,最终提升医疗质量与安全水平。