基于NANDA-I分类法II评估ChatGPT-4、Gemini、Claude和Copilot在生成护理诊断方面的能力：一项比较性横断面研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Nursing Review》：Evaluation of ChatGPT-4, Gemini, Claude, and Copilot in Generating Nursing Diagnoses Based on NANDA-I Taxonomy II: A Comparative Cross-Sectional Study

【字体：大中小】 时间：2025年11月30日 来源：International Nursing Review 3.7

编辑推荐：

　　本研究通过10个NANDA-I Taxonomy II患者场景，评估4个大语言模型生成护理诊断的能力，结果显示Claude表现最佳，但整体准确性有限，需结合专家审核，建议开发专用模型并制定政策保障临床应用安全。

摘要

研究目的

评估大型语言模型根据NANDA-I分类法II生成护理诊断的能力，并对其在各个领域及整体表现进行评估。

研究背景

大型语言模型已成为护理领域中的新兴工具，在辅助诊断生成和教育方面展现出潜力。然而，它们在临床和教育环境中的准确性和适用性仍需进一步研究。

研究方法

这项横断面比较研究使用了10个基于NANDA-I分类法II的真实患者案例，涵盖了12个护理领域。研究旨在评估四种模型根据患者情况生成护理诊断的能力。专家们通过单盲评估过程对模型的准确性及其与NANDA-I分类法II的一致性进行了评价。

研究结果

所有模型在不同领域及整体表现上均较为相似，其中Claude模型的整体表现得分最高。专家评估表明评分者间的一致性处于中等水平。

讨论

模型之间的细微差异及偶尔出现的遗漏表明，在临床应用前仍需专家审核。

研究结论

大型语言模型目前尚不足以独立用于临床实践和护理教育。将其作为辅助工具使用时需谨慎操作。此外，开发针对护理领域独特需求的专用模型将更具优势。

对护理行业的启示

在护理实践中使用大型语言模型时，应充分考虑其局限性，并由护士对模型生成的诊断结果进行验证。

对护理政策的启示

为确保人工智能工具在护理领域的安全应用，需制定完善的监管政策以保障患者安全，部署有效系统来监测模型性能，并制定全面的指导方针和培训计划。

利益冲突

作者声明无利益冲突。

数据获取方式

数据可从通讯作者处获取。

联系信箱：

粤ICP备09063491号

摘要