编辑推荐:
为探究 AI 聊天机器人能否提供高质量儿童虐待患者教育材料,研究人员将 NCTSN 的 8 个问题输入 ChatGPT、Google Gemini 和 Microsoft Copilot,经评估发现,AI 生成内容质量尚可但可读性和可操作性欠佳,表明其可作补充而非替代权威信息源。
在当今数字化时代,人工智能(AI)的发展可谓日新月异,特别是 AI 聊天机器人,自从 ChatGPT 在 2022 年横空出世后,迅速风靡全球。人们在生活的诸多方面都开始依赖这些聊天机器人获取信息,医疗领域也不例外。想象一下,当家长们对孩子可能遭受的虐待忧心忡忡时,他们或许会第一时间求助于网络,其中 AI 聊天机器人就可能成为他们获取信息的渠道之一。
然而,儿童虐待是一个极为严肃且敏感的公共卫生问题。世界卫生组织(WHO)将儿童期虐待定义为任何影响 18 岁以下儿童的虐待或忽视形式,这些行为会对孩子的健康、发育或尊严造成实际或潜在的伤害。据统计,2022 年美国约有 56.6 万名儿童被认定为虐待受害者,其中约 27% 遭受了身体或性虐待。而且,儿童期虐待会对成年后的身心健康产生深远影响,与抑郁症、创伤和应激相关障碍、社会功能受损、未来暴力倾向、自杀念头或行为以及非自杀性自伤行为等都密切相关。更令人担忧的是,部分专家指出,由于公众对虐待迹象和举报方式缺乏了解,大量儿童虐待事件可能并未被报告。
与此同时,AI 聊天机器人虽然在提供医疗信息方面展现出了一定的潜力,比如能准确回答美国医学执照考试风格的问题,在某些医疗查询上的表现也可圈可点,但它并非完美无缺。AI 存在传播错误信息、带有社会偏见、“幻觉”(生成错误或误导性信息并当作事实)等风险,并且其生成内容的阅读水平是否符合大众需求也有待考察。鉴于儿童虐待问题的特殊性,确定 AI 聊天机器人能否为受害者提供可靠、准确且无偏见的信息至关重要。但截至目前,还没有研究评估过 AI 在创建儿童虐待和精神病学领域患者教育材料方面的表现。在这样的背景下,为了填补这一空白,研究人员开展了此项研究。
研究人员来自多个单位(具体单位未明确),他们旨在评估 AI 聊天机器人与权威来源相比,生成有关儿童虐待及治疗方式的高质量患者教育材料的能力。他们提出假设:AI 模型目前能够提供高质量信息,错误信息较少,在可理解性、可操作性和可读性方面与美国国家儿童创伤应激网络(NCTSN,一个全国性权威组织)相当。
为开展研究,研究人员选取了 NCTSN 儿童身体虐待情况说明书上的前 8 个问题,输入到 Copilot(微软)、ChatGPT-3.5(OpenAI)和 Gemini(谷歌)这三个 AI 聊天机器人中。之所以选择这三个聊天机器人,是因为它们可免费使用、广受欢迎,且与常用搜索引擎有集成。研究中,每个新查询都开启新对话,以防之前查询影响后续回答,并且输入的问题与 NCTSN 材料中的表述完全一致。
随后,由 5 名儿童心理健康专家组成的团队,包括 4 名儿童和青少年精神病医生以及 1 名擅长儿童虐待问题的儿科心理学家,对回答进行独立评分。评分过程中,专家们对聊天机器人的类型和彼此的评分不知情。他们使用两种经过验证的工具评估信息质量:DISCERN 量表和患者教育材料评估工具(PEMAT)的可理解性与可操作性维度。DISCERN 评分从 16 分(质量极差)到 75 分(质量极佳),PEMAT 评分从 0% 到 100%,分数越高表示可理解性和可操作性越强。此外,专家团队还使用 5 点李克特量表分析错误信息,记录回答的字数,通过弗莱施 - 金凯德年级水平(Flesch-Kincaid Grade Level,分数从 5 分 [易读] 到 18 分 [极难读])评估可读性,并记录引用来源。
研究结果如下:
- 可靠性:经分析,5 名评分者之间的组内相关系数显示有 83.9% 的一致性,表明评分可靠。NCTSN 的回答质量良好,几乎没有错误信息。三个 AI 聊天机器人的 DISCERN 总平均分在 45.4 - 55.4 之间,也表明回答质量尚可,且几乎没有错误信息。
- 可理解性与可操作性:NCTSN 回答的 PEMAT 可理解性平均分为 79.1%,可操作性平均分为 52.0%,显示出中等可理解性和较差可操作性。AI 聊天机器人的 PEMAT 可理解性平均分在 73.1% - 80.0% 之间,同样为中等可理解性;PEMAT 可操作性平均分在 64.0% - 72.0% 之间,其中 ChatGPT 的可操作性平均分达到 72.0%,相对较好,但总体而言,所有来源的可操作性都欠佳。
- 阅读水平与长度:NCTSN 回答的平均阅读水平为 10.2 年级,AI 聊天机器人回答的平均阅读水平在 10.5 - 13.2 之间,达到大学阅读水平,且 ChatGPT 生成的文本比 NCTSN 的更难读。同时,AI 聊天机器人生成的文本比 NCTSN 的长得多。
- 引用来源:NCTSN、Copilot 和 Gemini 引用的顶级来源包括政府、医院附属和独立志愿者健康组织,而 ChatGPT 在回答中未引用任何来源。
综合研究结果,研究人员得出结论:AI 聊天机器人目前能够提供与权威来源相当的、关于儿童虐待的准确、高质量信息,但存在一些局限性。其回答的可读性较差,超出了推荐的五年级及以下阅读水平,可操作性也不足,缺乏明确的行动步骤,且 AI 生成的回答较长,可能会让读者望而却步。此外,AI 聊天机器人在使用视觉辅助方面也存在局限。因此,AI 聊天机器人应作为其他经过验证的医疗信息来源的补充,而非主要来源。
在讨论部分,研究人员指出,这是首次评估 AI 聊天机器人生成的与儿童虐待相关的消费者健康信息质量的研究。AI 聊天机器人引用可靠来源信息的做法值得肯定,但仍需改进。为减少错误信息传播,AI 聊天机器人开发者应加强对错误信息的控制,要求在回答中引用可靠来源。专业组织和政府机构也应发布相关指南,指导消费者正确使用 AI 聊天机器人。临床医生可将 AI 大语言模型作为生成患者教育材料初稿的工具,后续再进行内容、可读性和可操作性方面的编辑。
这项研究具有重要意义。它为 AI 聊天机器人在儿童虐待患者教育材料领域的应用提供了初步评估,为后续研究指明了方向。未来研究可进一步探讨 AI 聊天机器人在不同时间的可靠性,以及其对提高临床结果(如增加患者或提供者知识、促进儿童虐待报告和专业服务利用)的作用。同时,研究的局限性也为后续研究提供了思路,比如扩大问题范围,研究不同提问方式对 AI 回答的影响等。该研究成果发表在《Child Protection and Practice》上,为该领域的发展提供了有价值的参考,有望推动 AI 在医疗领域更合理、有效地应用,更好地服务于儿童虐待问题的防治和相关信息传播。