评估人工智能在护理教育中支持项目评估的应用

《CIN: Computers, Informatics, Nursing》:Assessing Artificial Intelligence to Support Grant Evaluation in Nursing Education

【字体: 时间:2025年10月25日 来源:CIN: Computers, Informatics, Nursing 1.9

编辑推荐:

  护理教育项目评估中,Future-FLO系统(含自定义提示)与标准ChatGPT-4的输出质量经人类评估者与ImproverBot(AI评估工具)比较,发现前者未提升准确性、完整性和实用性评分,后者评分显著更高但存在输出错误。研究强调需结合人工审核、优化系统提示及数据安全框架,并关注伦理风险。

  人工智能,包括根据用户提示生成输出的聊天机器人,正准备在护理教育和项目评估领域引发一场革命。本文总结了一项关于聊天机器人系统三个核心功能的试点评估:(1)定义一个角色或系统提示,(2)创建特定任务提示,以及(3)开发一个用于评估聊天机器人输出的改进机制。首先,编写了一个“扮演”系统提示,以基于专业价值观生成“未来-FLO”(Future-FLO)。其次,编写了一个任务提示,以生成与项目评估相关的特定输出。第三,创建了一个独立的“改进机器人”(ImproverBot),用于对FLO系统生成的输出进行结构化评估。具备相关资助目标知识的人类评估者对由FLO和非FLO系统提示生成的AI输出提供了反馈。ImproverBot则对相同的输出进行评分,评估其准确性、完整性和实用性。使用统计测试来比较不同AI版本和评估者类型之间的评分。结果显示,自定义提示与使用标准模型相比,未带来额外的优势,无论是由人类评估者还是ImproverBot评分。ImproverBot的评分显著高于人类评估者。评论指出,输出中存在错误且不可靠。利用人工智能支持资助项目的评估工作,需要持续的努力来开发聊天机器人并评估其输出。

护理自成立以来,一直在使用新的方法来研究和改善人类健康。现代护理的创始人弗洛伦斯·南丁格尔(Florence Nightingale)率先在医院中使用统计方法进行质量改进。她的系统性评估方法改变了医疗保健行业。人工智能(AI)有望在这一领域带来类似的变革,通过数据建模的力量支持下一代医疗系统。尽管这项技术尚处于初级阶段,但许多国家的健康相关组织已经发布了关于AI在健康和医疗保健方面潜力的声明。生成式AI是一种能够根据提示或结构化请求生成新内容的AI形式。这种类型的AI广泛存在于各种公司的聊天机器人中。这些聊天机器人通过接收用户的提示或指令来生成新的内容,包括文本、计算机代码或数据分析。大型语言模型(LLMs)是生成式AI的一种,它们使用自然语言处理技术,通过学习大量文本数据中的词汇模式来处理用户请求并生成输出。自2023年起,由LLMs驱动的生成式聊天机器人开始对公众广泛可用。

最近的出版物展示了在护理、教育和行政管理等多个领域使用基于生成式AI的工具的可行性和潜力。在组织内部,这些计算工具显示出潜在的能力,可以简化行政流程,减轻文书负担,并支持强大的知识生态系统。然而,在实施之前,它们需要经过仔细的研究和评估,以确保其使用符合法律和伦理规范,并产生可靠且相关的信息。AI在护理教育项目评估中的应用,必须遵循法律和伦理标准,以及资助方的期望、科学最佳实践和组织指南。LLMs在促进评估过程方面具有巨大潜力,但必须根据具体问题进行精心调整,并持续评估其质量。AI聊天机器人的设计原则强调,系统输出总是特定于某个模型、用户提示和可用的数据存储。因此,为了提高输出质量,支持评估目的,需要理解特定LLM处理器的结构和输入。

南丁格尔不仅被认为是现代护理的创始人,她作为统计学家和改进导向数据可视化的先驱者,其贡献同样令人瞩目。该项目借鉴了这一历史灵感,设想了一个面向未来的数据系统,能够支持护理教育的持续改进。我们开发并试点测试了LLM聊天机器人系统的关键功能,将其称为Future-FLO(反馈循环与结果),以支持基于资助的项目评估者的工作和效率。一个重要的功能是ImproverBot,这是一个专门设计的LLM工具,用于通过评估FLO系统输出来推动改进循环。

联邦资助的护理教育项目,如健康资源与服务管理局(HRSA)的项目,其评估计划文件具有标准化的性质,为试点Future-FLO系统提供了一个良好的测试案例。所有资助项目的总体目标都是由HRSA编写的标准化工作计划。该标准化工作计划包括在资助期间项目目标、具体目标和里程碑活动的时间线信息。HRSA资助信息是公开可获取的,将标准化工作计划输入AI系统不会违反机构或联邦数据保护法规。利用生成式AI从HRSA表格中提取有意义且可靠的数据,并创建带有时间相关性的项目计划图表,如甘特图,将有助于提高效率、准确性和时间管理能力。这种方法可以改善和简化资助项目的监控和评估。

本文描述了Future-FLO系统开发和测试的三个核心功能:(1)定义初始的“扮演”系统提示,(2)创建使用该系统提示执行的任务,以及(3)开发第二个聊天机器人ImproverBot,用于评估和评估任务执行后的输出。我们的研究目标是(1)比较Future-FLO自定义系统在生成标准化项目评估输出方面的效用与仅使用标准ChatGPT-4模型的输出,以及(2)评估ImproverBot在评估这些输出、指导Future-FLO系统的持续改进方面的能力。为此,我们比较了ImproverBot与六名人类评估者的评分。图1展示了这一评估的视觉表示,采用了一种不完整的重复测量设计。

经过机构审查委员会(IRB)的审查,该项目被指定为非人类受试者的免审查研究(IRB编号:240386)。项目团队使用了一个通过机构接口访问的封闭系统ChatGPT 4.0,该系统由OpenAI提供,以确保数据安全。该项目由一名专业评估者和社会科学家(R.G.R.)以及一名学术助产士(J.P.)共同领导。此外,来自助产士(H.M.)、计算机科学(M.R.K.)、定量方法(Y.M.W., M.D.L.)和临床信息学(P.S.)领域的其他研究人员和作者参与了研究的设计和实施,审查了输出,并提供了分析。

我们使用了HRSA资助的助产士教育项目“Maternity Care Nursing Workforce Expansion (MatCare) Training Program”(HRSA 23-120)的标准化工作计划文本。该工作计划是一个26页的PDF格式文档,包含了资助期间的目标、具体目标和里程碑活动的时间线信息。我们请Amplify上的AI助手审查HRSA标准化工作计划的最终资助提交部分,使用Future-FLO自定义系统和标准ChatGPT-4模型。AI助手被要求根据工作计划中的信息创建项目跟踪图表,以甘特图的形式展示活动及其对应的时间线。我们将每个预算年度视为一个单独的样本,生成了四个不同的输入进行分析。

为了进行这项评估试点,我们首先开发了一个初始的“扮演”系统提示,作为构建更先进的Future-FLO系统角色的第一步。随后,我们创建了一个任务提示,并将其提交给Future-FLO系统和未使用自定义系统提示的ChatGPT-4模型。该任务提示要求AI助手根据标准化工作计划创建甘特图类型的时间/项目跟踪图表,并提取每个目标及其后续具体目标和对应的里程碑活动。然后,我们创建了一个独立的ImproverBot,用于评估由FLO系统或标准ChatGPT-4模型生成的输出。我们希望了解另一个聊天机器人是否能够对系统输出进行评分或评估,以评估其在准确性、完整性和实用性方面的表现。我们还训练了人类评估者使用相同的评估标准来评估系统输出。表1展示了Future-FLO自定义系统提示、工作计划任务提示和ImproverBot指令的关键要素。完整的提示内容可以在附录A中找到。

我们设计了一个评分表,供ImproverBot和人类评估者共同使用,以评估来自Future-FLO自定义系统提示和标准ChatGPT-4系统的输出质量。本研究中使用的输出评分表可以在附录B中找到。评估的重点是准确性、完整性和实用性这三个性能领域。每个术语都有定义,评分选项则按照1分(最低)到7分(最高)的李克特量表进行安排。我们借鉴了之前LLM评估方法,选择了以下概念来满足不断发展的Future-FLO系统的需求。

在评估关键系统功能时,我们采取了以下步骤:(1)为了实现目标1,我们将Future-FLO系统输出的质量评分与标准ChatGPT-4系统的评分进行了比较,基于预定义的准确性、完整性和实用性三个评估标准。为此,两种AI系统生成的输出都由六名人类评估者和ImproverBot进行了评分。此外,我们还审查了人类评估者提供的定性评论,以识别任务结果的质量主题。(2)我们通过比较ImproverBot与六名人类评估者的评分来评估ImproverBot的性能。

统计分析方面,我们有四个不同的资助工作计划输出(按年份划分),由Custom-FLO-24或标准ChatGPT-4模型生成。我们将人类评估者和ImproverBot视为两个独立的群体,并采用2×2混合模型方差分析(ANOVA)进行分析,使用类型3平方和来应对不平衡设计。对于每个输出,我们分别进行了分析。在四个输出和两个评估群体(六名人类评估者和ImproverBot)以及两个AI版本(Custom-FLO-24和ChatGPT-4)的情况下,共有N=77个评分数据(37个来自人类评估者,40个来自ImproverBot)。

我们审查了描述性统计数据,包括集中趋势(均值和中位数)和变异指数(最小值和最大值、标准差和均值的标准误差)。我们计算了皮尔逊相关系数,以评估人类评估者和ImproverBot的评分是否相关。结果显示,ImproverBot与人类评估者在完整性和实用性方面的评分之间存在中等程度的相关性,尽管ImproverBot始终给出更高的评分。实用性这一概念在评分上存在最大的分歧。

对于所有三个评估结果,评估者类型(人类与AI)的主效应表明,无论AI类型如何,ImproverBot对所有输出的评分都显著高于人类评估者(所有主效应P<0.017)。Future-FLO自定义系统提示在人类评估者和ImproverBot的评分中,未显示出与标准ChatGPT-4系统相比有任何额外的优势。图2展示了三种评估结果的平均评分以及AI版本(Custom-FLO-24或ChatGPT-4)与评估者类型(人类或ImproverBot)之间的关系。

任务输出存在错误,无法用于项目管理。甘特图并不是一个可用的格式,而内部聊天机器人系统无法在不借助二次软件的情况下生成可视化图表。人类评估者的评论一致指出,从标准化工作计划中提取信息并转换为其他格式时,准确性和完整性方面存在重大问题。

这项研究是关于在基于资助的项目评估中使用LLM的试点报告。其他LLM配置、任务提示和评估工作计划会产生不同的结果。本文使用了一个内部管理的私有系统来描述LLM的能力。财务投资未被计算,但存在时间和技术支持的成本。

试点评估发现,生成式聊天机器人系统在资助项目评估方面存在许多当前的局限性,同时也展示了这些技术支持项目评估的潜力。虽然最初的目的是创建一个能够生成可靠、价值观导向的系统提示,但结果表明,这种提示并未带来额外的益处。此外,ImproverBot的评分显著高于人类评估者,这表明需要更强大的验证机制。

建立一个能够适当保护机构和学生数据的系统至关重要。我们的研究受益于机构在这一领域的投资。我们决定与内部系统开发合作,但并未包括市场上最先进的角色开发和数据存储功能。个性化聊天机器人系统需要长期的财务投入,以及必要的时间和技术专业知识,还需要持续的质量反馈来调整模型以达到预期结果。数据保护、持续开发和财务成本都是使用AI聊天机器人进行评估支持时必须考虑的因素。

在封闭的LLM系统中,对个性化聊天机器人或AI助手进行微调的能力正在迅速发展。当高级角色开发成为可能时,未来的版本将需要由护士、项目评估者以及擅长提示工程和聊天机器人培训的专业人士进行仔细校准,以提供有意义的评估。在本试点场景中使用的“扮演”提示未能产生与具有资助或专业水平经验的人类评估者期望一致的输出。ImproverBot与人类评估者的评分差异突显了多维度评估方法的必要性。自动化评估工具如ImproverBot可能有用,但其评估结果需要谨慎解读,并由人类专家审查以获得确认。

研究团队成员报告称,比较标准化工作计划的输出有助于他们更深入地理解资助的时间线和目标。值得注意的是,随着定制的AI助手在完成特定任务方面的能力提高,这种学习经验将从人类团队成员转移到AI助手及其知识库中。这可能提高效率,但也可能产生错误。为了通过项目评估推进科学,并指导未来的AI系统用户,我们建议在所有资助评估工作中详细记录AI助手的作用,包括传播基于证据的使用案例。

对AI的严格评估对于这项技术在医疗保健和教育领域的持续改进至关重要。在本文中,我们描述了一个生成式AI聊天机器人的创建和评估,以支持联邦护理教育资助。我们希望评估AI工具从复杂的工作计划中提取和操作元素的能力。我们的研究发现,当前聊天机器人系统在将标准化文档中的信息转化为数据可视化方面是一个容易出错的过程。人类评估者对聊天机器人输出的验证增加了额外的时间负担,但并未在效率、准确性和质量方面带来明显的提升。

展望未来,利用生成式AI进行资助评估将需要全面且迭代的方法。持续投资于提示工程、数据整理和验证流程是开发可靠且可信的基于聊天机器人的评估支持工具的必要条件。这些工具将为护理教育项目和资助提供有效的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号