
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于NANDA-I分类法II评估ChatGPT-4、Gemini、Claude和Copilot在生成护理诊断方面的能力:一项比较性横断面研究
《International Nursing Review》:Evaluation of ChatGPT-4, Gemini, Claude, and Copilot in Generating Nursing Diagnoses Based on NANDA-I Taxonomy II: A Comparative Cross-Sectional Study
【字体: 大 中 小 】 时间:2025年11月30日 来源:International Nursing Review 3.7
编辑推荐:
本研究通过10个NANDA-I Taxonomy II患者场景,评估4个大语言模型生成护理诊断的能力,结果显示Claude表现最佳,但整体准确性有限,需结合专家审核,建议开发专用模型并制定政策保障临床应用安全。
评估大型语言模型根据NANDA-I分类法II生成护理诊断的能力,并对其在各个领域及整体表现进行评估。
大型语言模型已成为护理领域中的新兴工具,在辅助诊断生成和教育方面展现出潜力。然而,它们在临床和教育环境中的准确性和适用性仍需进一步研究。
这项横断面比较研究使用了10个基于NANDA-I分类法II的真实患者案例,涵盖了12个护理领域。研究旨在评估四种模型根据患者情况生成护理诊断的能力。专家们通过单盲评估过程对模型的准确性及其与NANDA-I分类法II的一致性进行了评价。
所有模型在不同领域及整体表现上均较为相似,其中Claude模型的整体表现得分最高。专家评估表明评分者间的一致性处于中等水平。
模型之间的细微差异及偶尔出现的遗漏表明,在临床应用前仍需专家审核。
大型语言模型目前尚不足以独立用于临床实践和护理教育。将其作为辅助工具使用时需谨慎操作。此外,开发针对护理领域独特需求的专用模型将更具优势。
在护理实践中使用大型语言模型时,应充分考虑其局限性,并由护士对模型生成的诊断结果进行验证。
为确保人工智能工具在护理领域的安全应用,需制定完善的监管政策以保障患者安全,部署有效系统来监测模型性能,并制定全面的指导方针和培训计划。
作者声明无利益冲突。
数据可从通讯作者处获取。