基于大语言模型的患者安全报告智能分析：探索性多方法研究与实践应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMJ Quality & Safety》：AI-driven analysis of patient safety reports using large language models: an exploratory multiple methods study

【字体：大中小】 时间：2026年02月09日 来源：BMJ Quality & Safety 6.5

编辑推荐：

　　本文创新性地应用大语言模型（LLM）对患者安全事件报告进行自动化分析，通过多方法验证显示GPT-4o在问题识别准确率达94%，分类一致性超83%。研究构建了包含19个主类/53个子类的本土化分类体系，并开发可视化仪表盘。质性访谈证实该工具能有效提升安全事件分析效率（IRS），为医疗质量改进（QI）提供数据驱动新范式。

研究背景与意义

患者安全始终是医疗系统的核心议题，自《To Err is Human》报告发布以来，尽管医疗系统普遍采用事件报告系统（IRS）进行安全监测，但约99.9%的低危害事件（包括近似错误事件NMEs和前兆安全事件PSEs）因人工审核成本过高而缺乏系统分析。传统方法依赖人工记忆和经验分类，存在效率低、一致性差等局限。大语言模型（LLM）的出现为解析非结构化文本提供了新可能，但其在患者安全领域的实际应用潜力尚未充分探索。

研究方法设计

本研究采用混合方法设计，定量评估LLM分析效能，质性探究实施可行性。选取OpenAI的GPT-4o模型，通过微软Azure平台安全处理9357份2012-2023年患者安全报告的自由文本字段。研究分五阶段推进：首先通过提示工程优化问题提取流程（详见附录A），模型从每份报告中提取多重安全问题；随后采用扎根理论生成无预设分类体系（附录B），经专家修订后形成19个主类别和53个子类别的本土化分类法；最终通过Tableau构建可视化仪表盘。验证阶段由患者安全专家随机抽样评估100份报告的问题识别准确性，以及219个问题的分类标注一致性。

模型性能验证结果

定量分析显示，LLM问题识别与专家评审的平均一致率达94%（95% CI 90.6%-97.4%），主类别和子类别标注准确率分别为91.5%和83.3%。分类体系适用性良好，仅0.2%问题被归为“其他”类别。评审员间一致性系数（AC1）达0.91（问题识别）和0.74（子类标注），表明模型输出可靠性较高。典型误差案例包括将打印机故障导致的输血问题误标为“血液管理错误”而非“设备问题”，反映分类边界判断的复杂性。

质性研究洞察

对10名质量安全专家的访谈揭示三大核心实施成果：在适当性方面，LLM输出能有效整合至工作流程，帮助快速识别系统级风险；可接受性方面，受访者肯定信息简洁性与价值，同时建议优化仪表盘交互设计；采纳意愿方面，参与者表现出高度积极性，期望利用模型发现单元级趋势并指导质量改进项目。一位质量改进专家表示：“这些结果能帮助我们将被动响应转为主动预防。”

实践应用价值

本研究证实LLM可突破传统分析瓶颈，实现三大转变：一是从人工抽样审核转向全量数据分析，使低危害事件的价值挖掘成为可能；二是从事后归因转向风险预警，通过模式识别提前干预系统漏洞；三是从分散管理转向协同治理，借助标准化分类促进跨部门质量改进。例如模型成功识别出既往被忽视的重复设备问题，为资源调配提供依据。

局限与展望

研究存在单中心数据偏差、样本量有限等局限。未来需探索多中心验证、模型泛化能力及长期效能维持策略。同时，LLM的幻觉风险与数据漂移问题强调持续人工监督的必要性。如何将此类工具无缝整合至临床工作流，仍需结合实施科学框架进行深度优化。

结论

LLM驱动的患者安全分析不仅技术可行，更具备显著的实践应用潜力。通过将海量叙事文本转化为可操作洞察，其为医疗系统实现从“被动响应”到“主动预防”的范式转型提供了关键技术支撑。这种数据驱动的方法有望重塑患者安全管理格局，最终提升医疗质量与安全水平。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号