编辑推荐:
在临床护理中,护理流程实施欠佳且大语言模型(LLMs)生成护理诊断和计划的质量存争议。研究人员针对此,以神经外科出院患者为对象开展研究。结果显示,ERNIE Bot 4.0 和 Moonshot AI 生成的内容与 “金标准” 相似,但应用仍面临挑战。该研究为 LLMs 在临床护理的应用提供参考。
在当今医疗领域,临床护理工作面临诸多挑战。护理流程自引入以来,在临床实际执行中却不尽人意,护理常常依赖常规和医嘱,缺乏规划的护理情况普遍存在。造成这种现象的主要原因包括护理人员在制定护理计划方面知识和技能的欠缺,以及护士人手不足。与此同时,大语言模型(Large Language Models,LLMs)凭借其强大的自然语言处理能力崭露头角,在众多领域得到广泛应用,在临床护理中,其有望生成个性化的护理诊断和计划,为解决现有护理难题带来新的曙光。然而,此前研究多局限于使用 ChatGPT 这一种大语言模型,且生成的护理诊断和计划质量饱受争议 ,所以,深入探究不同大语言模型在护理领域的应用潜力迫在眉睫。
重庆医科大学附属第一医院神经外科护理部等机构的研究人员开展了一项极具价值的研究,相关成果发表在《BMC Nursing》上。该研究旨在探索通过提示框架在不同大语言模型中生成的护理诊断和计划的质量,并评估大语言模型在临床环境中的潜在适用性。
研究人员运用了多种关键技术方法。首先,精心挑选了 ERNIE Bot 4.0 和 Moonshot AI 这两款大语言模型,它们分别在 2024 年 9 月和 10 月进行了更新,在中文自然语言处理方面具有显著优势。其次,制定了严格的护理专家纳入标准,依据一系列条件对专家进行筛选。再者,设计了结构化护理评估模板,综合参考相关专业书籍并结合神经外科常见疾病出院案例构建而成。同时,构建了迭代提示框架,通过多次迭代优化,引导大语言模型生成护理诊断、预期结果和护理干预措施。最后,邀请三位神经外科护理专家进行标准化培训,确立 “金标准”,以此来评估大语言模型生成内容的质量。
研究结果如下:
- 护理诊断对比:ERNIE Bot 4.0 和 Moonshot AI 生成的护理诊断在范围和性质上与 “金标准” 相似。“金标准” 护理诊断有 11 项(基于北美护理诊断协会国际版,即 NANDA-I),ERNIE Bot 4.0 生成 10 项,其中 7 项完全匹配,3 项相似,1 项遗漏;Moonshot AI 同样生成 10 项,6 项完全匹配,2 项相似,1 项遗漏,2 项错误。二者都遗漏了 “潜在并发症:癫痫”,Moonshot AI 的错误项为 “排尿异常” 和 “知识缺乏” 。
- 护理优先级排序:在护理优先级方面,两款模型都重视 “急性疼痛” 和 “潜在并发症:脑疝”。ERNIE Bot 4.0 还强调 “无效气道清理”,Moonshot AI 则突出 “潜在并发症:肺部感染”,且优先级排序基本符合患者需求和临床场景 。
- 预期结果和护理干预:ERNIE Bot 4.0 生成的预期结果和护理干预与护理诊断紧密相关,范围和性质与 “金标准” 一致;Moonshot AI 虽未按护理诊断优先级列出,但内容也与 “金标准” 相近。不过,两款模型在护理干预描述的准确性上欠佳,表述不够规范和详细 。
- 术语准确性:两款模型生成的护理诊断和预期结果的中文描述与 “金标准” 高度相似,但护理干预描述的准确性较低,没有严格遵循标准化术语格式 。
研究结论和讨论部分指出,通过构建结构化护理评估和应用提示工程技术所开发的提示框架,能够有效结合人类专业知识和机器生成的见解,在临床护理专家的监督和审查下,大语言模型有潜力支持临床护理流程的应用。然而,目前大语言模型在临床护理应用中仍面临诸多挑战。一方面,其生成结果存在与 “金标准” 有偏差的情况,可能源于结构化评估内容的缺失或模型训练数据集的问题。另一方面,在实际应用中,还需重视伦理问题,建立人工审查机制,及时识别错误结果,同时完善相关法律法规和伦理框架。此外,不同地区护士对大语言模型的接受程度和应用能力存在差异,且医疗信息系统与大语言模型的兼容性也有待提高。尽管如此,该研究为大语言模型在临床护理领域的应用提供了新的探索方向,有望推动护理工作向智能化、高效化发展,减轻护士工作负担,最终改善患者的护理结局。