AI 聊天机器人能否成为儿童虐待患者教育材料的可靠来源？ - 生物通

今日动态返回首页

登录会员注册生物通快讯免费订阅

生物通首页 > 今日动态 > 正文

AI 聊天机器人能否成为儿童虐待患者教育材料的可靠来源？

【字体：大中小】 时间：2025年05月06日 来源：Child Protection and Practice

编辑推荐：

　　为探究 AI 聊天机器人能否提供高质量儿童虐待患者教育材料，研究人员将 NCTSN 的 8 个问题输入 ChatGPT、Google Gemini 和 Microsoft Copilot，经评估发现，AI 生成内容质量尚可但可读性和可操作性欠佳，表明其可作补充而非替代权威信息源。

　　在当今数字化时代，人工智能（AI）的发展可谓日新月异，特别是 AI 聊天机器人，自从 ChatGPT 在 2022 年横空出世后，迅速风靡全球。人们在生活的诸多方面都开始依赖这些聊天机器人获取信息，医疗领域也不例外。想象一下，当家长们对孩子可能遭受的虐待忧心忡忡时，他们或许会第一时间求助于网络，其中 AI 聊天机器人就可能成为他们获取信息的渠道之一。

然而，儿童虐待是一个极为严肃且敏感的公共卫生问题。世界卫生组织（WHO）将儿童期虐待定义为任何影响 18 岁以下儿童的虐待或忽视形式，这些行为会对孩子的健康、发育或尊严造成实际或潜在的伤害。据统计，2022 年美国约有 56.6 万名儿童被认定为虐待受害者，其中约 27% 遭受了身体或性虐待。而且，儿童期虐待会对成年后的身心健康产生深远影响，与抑郁症、创伤和应激相关障碍、社会功能受损、未来暴力倾向、自杀念头或行为以及非自杀性自伤行为等都密切相关。更令人担忧的是，部分专家指出，由于公众对虐待迹象和举报方式缺乏了解，大量儿童虐待事件可能并未被报告。

与此同时，AI 聊天机器人虽然在提供医疗信息方面展现出了一定的潜力，比如能准确回答美国医学执照考试风格的问题，在某些医疗查询上的表现也可圈可点，但它并非完美无缺。AI 存在传播错误信息、带有社会偏见、“幻觉”（生成错误或误导性信息并当作事实）等风险，并且其生成内容的阅读水平是否符合大众需求也有待考察。鉴于儿童虐待问题的特殊性，确定 AI 聊天机器人能否为受害者提供可靠、准确且无偏见的信息至关重要。但截至目前，还没有研究评估过 AI 在创建儿童虐待和精神病学领域患者教育材料方面的表现。在这样的背景下，为了填补这一空白，研究人员开展了此项研究。

研究人员来自多个单位（具体单位未明确），他们旨在评估 AI 聊天机器人与权威来源相比，生成有关儿童虐待及治疗方式的高质量患者教育材料的能力。他们提出假设：AI 模型目前能够提供高质量信息，错误信息较少，在可理解性、可操作性和可读性方面与美国国家儿童创伤应激网络（NCTSN，一个全国性权威组织）相当。

为开展研究，研究人员选取了 NCTSN 儿童身体虐待情况说明书上的前 8 个问题，输入到 Copilot（微软）、ChatGPT-3.5（OpenAI）和 Gemini（谷歌）这三个 AI 聊天机器人中。之所以选择这三个聊天机器人，是因为它们可免费使用、广受欢迎，且与常用搜索引擎有集成。研究中，每个新查询都开启新对话，以防之前查询影响后续回答，并且输入的问题与 NCTSN 材料中的表述完全一致。

随后，由 5 名儿童心理健康专家组成的团队，包括 4 名儿童和青少年精神病医生以及 1 名擅长儿童虐待问题的儿科心理学家，对回答进行独立评分。评分过程中，专家们对聊天机器人的类型和彼此的评分不知情。他们使用两种经过验证的工具评估信息质量：DISCERN 量表和患者教育材料评估工具（PEMAT）的可理解性与可操作性维度。DISCERN 评分从 16 分（质量极差）到 75 分（质量极佳），PEMAT 评分从 0% 到 100%，分数越高表示可理解性和可操作性越强。此外，专家团队还使用 5 点李克特量表分析错误信息，记录回答的字数，通过弗莱施 - 金凯德年级水平（Flesch-Kincaid Grade Level，分数从 5 分 [易读] 到 18 分 [极难读]）评估可读性，并记录引用来源。

研究结果如下：

可靠性：经分析，5 名评分者之间的组内相关系数显示有 83.9% 的一致性，表明评分可靠。NCTSN 的回答质量良好，几乎没有错误信息。三个 AI 聊天机器人的 DISCERN 总平均分在 45.4 - 55.4 之间，也表明回答质量尚可，且几乎没有错误信息。
可理解性与可操作性：NCTSN 回答的 PEMAT 可理解性平均分为 79.1%，可操作性平均分为 52.0%，显示出中等可理解性和较差可操作性。AI 聊天机器人的 PEMAT 可理解性平均分在 73.1% - 80.0% 之间，同样为中等可理解性；PEMAT 可操作性平均分在 64.0% - 72.0% 之间，其中 ChatGPT 的可操作性平均分达到 72.0%，相对较好，但总体而言，所有来源的可操作性都欠佳。
阅读水平与长度：NCTSN 回答的平均阅读水平为 10.2 年级，AI 聊天机器人回答的平均阅读水平在 10.5 - 13.2 之间，达到大学阅读水平，且 ChatGPT 生成的文本比 NCTSN 的更难读。同时，AI 聊天机器人生成的文本比 NCTSN 的长得多。
引用来源：NCTSN、Copilot 和 Gemini 引用的顶级来源包括政府、医院附属和独立志愿者健康组织，而 ChatGPT 在回答中未引用任何来源。

综合研究结果，研究人员得出结论：AI 聊天机器人目前能够提供与权威来源相当的、关于儿童虐待的准确、高质量信息，但存在一些局限性。其回答的可读性较差，超出了推荐的五年级及以下阅读水平，可操作性也不足，缺乏明确的行动步骤，且 AI 生成的回答较长，可能会让读者望而却步。此外，AI 聊天机器人在使用视觉辅助方面也存在局限。因此，AI 聊天机器人应作为其他经过验证的医疗信息来源的补充，而非主要来源。

在讨论部分，研究人员指出，这是首次评估 AI 聊天机器人生成的与儿童虐待相关的消费者健康信息质量的研究。AI 聊天机器人引用可靠来源信息的做法值得肯定，但仍需改进。为减少错误信息传播，AI 聊天机器人开发者应加强对错误信息的控制，要求在回答中引用可靠来源。专业组织和政府机构也应发布相关指南，指导消费者正确使用 AI 聊天机器人。临床医生可将 AI 大语言模型作为生成患者教育材料初稿的工具，后续再进行内容、可读性和可操作性方面的编辑。

这项研究具有重要意义。它为 AI 聊天机器人在儿童虐待患者教育材料领域的应用提供了初步评估，为后续研究指明了方向。未来研究可进一步探讨 AI 聊天机器人在不同时间的可靠性，以及其对提高临床结果（如增加患者或提供者知识、促进儿童虐待报告和专业服务利用）的作用。同时，研究的局限性也为后续研究提供了思路，比如扩大问题范围，研究不同提问方式对 AI 回答的影响等。该研究成果发表在《Child Protection and Practice》上，为该领域的发展提供了有价值的参考，有望推动 AI 在医疗领域更合理、有效地应用，更好地服务于儿童虐待问题的防治和相关信息传播。

相关新闻

生物通微信公众号

微信

新浪微博

搜索
国际
国内
人物
产业
热点
科普

热搜：儿童虐待|AI 聊天机器人|患者教育材料|NCTSN|质量评估|可读性|可操作性|医疗信息|大语言模型|心理创伤

急聘职位
高薪职位

知名企业招聘

热点排行

新闻专题

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱：

粤ICP备09063491号