
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于检索增强生成(RAG)技术的孕期智能问答助手DIAN评估研究:一项聚焦可理解性-准确性-可读性(CAR)的综合分析
【字体: 大 中 小 】 时间:2025年09月23日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本推荐语归纳总结:本研究采用可理解性-准确性-可读性(CAR)框架,评估了基于英国国民医疗服务体系(NHS)指南的检索增强生成(RAG)孕期聊天机器人DIAN的性能。研究发现,在产后护理领域,女性用户对内容可理解性和准确性的评分显著高于临床医生,而医生则更认可其文本可读性。研究为开发面向多用户群体的数字化健康教育工具提供了重要实证依据。
引言:患者教育材料(PEMs)常常超出普通健康素养水平。检索增强的会话人工智能(AI)可以提供交互式、基于证据的解释,适应用户需求。本研究评估了DIAN,一个基于NHS妊娠手册的RAG赋能孕期聊天机器人,使用可理解性-准确性-可读性(CAR)框架,比较女性和临床医生在关键围产期领域的感知差异。
材料与方法:研究采用横断面评估方法,使用标准化提示和盲法评分。参与者包括119名女性(18-55岁)和29名临床医生。经过简短的CAR培训和校准后,所有评估者使用4点李克特量表,独立对DIAN在产后护理、孕期健康与并发症、饮食与营养、心理与情感健康四个领域的回答进行评分。组间差异使用Mann-Whitney U检验进行检验,并采用Bonferroni校正;效应大小用r = |Z|/√N和Cliff‘s delta表示。鉴于独立评分者设计,未评估评分者间信度。
结果:差异主要集中在产后护理领域。可理解性方面女性评分更高(U = 1206.50, Z = ?2.524, p = 0.012; r = 0.207; Δ = 0.301)。准确性也偏向女性(U = 1239.00, Z = ?2.370, p = 0.018; r = 0.195; Δ = 0.282)。可读性则偏向临床医生(U = 1181.50, Z = ?2.639, p = 0.008; r = 0.217; Δ = 0.315)。其他领域在校正后未显示显著组间差异。雷达图可视化反映了这些模式,女性在产后护理领域显示出更大的可理解性/准确性轮廓,而临床医生显示出更大的可读性轮廓。
讨论:基于权威的国家指南,DIAN在组间实现了广泛可比的CAR感知,临床相关的差异仅限于产后护理。女性感知到更高的可理解性和准确性,而临床医生判断语言更可读,这表明体验清晰度与专业文本易读性之间存在差距。有针对性的产后细化、词汇简化、角色定制摘要和可操作清单可以在不损害保真度的情况下调整认知。更广泛地说,当内容经过审查、更新并使用以利益相关者为中心的指标进行评估时,基于RAG的聊天机器人可以支持公平的数字健康教育。未来的工作应检查自由形式的互动、纵向行为结果和伦理保障(使用范围信息、升级途径和偏见审计)。
相关研究:为将我们的研究置于背景中,我们考察了先前关于医疗聊天机器人的研究,这些聊天机器人涉及各种场景,包括孕产妇和生殖健康。表1重点介绍了为不同目的开发的聊天机器人示例,包括生育意识、妊娠期糖尿病管理、孕产妇健康和围产期心理健康。表2详细介绍了它们的方法,展示了在狭窄临床背景下的技术进步和研究目标。大多数现有研究要么关注技术性能指标,要么局限于狭窄临床背景下的有限用例。很少有研究系统地比较医疗专业人员和普通受众的感知和理解,随着这些技术越来越多地融入患者护理,解决这些差距至关重要。
参与者招募与研究设置:采用多模式招募策略招募研究参与者。接触产科诊所的医疗保健提供者,并提供研究信息材料以促进招募。在参与诊所内放置招募广告,以最大化目标人群的可见性。收集潜在参与者详细信息,研究团队联系他们进行进一步筛选和选择。女性参与者必须年满18岁。当前怀孕、过去有怀孕经历或密切支持过他人怀孕的女性被考虑为参与者。无论教育背景如何,参与者只有在能够用英语阅读和交流时才被纳入,因为所有研究材料和访谈均用英语进行。排除有医学背景和与医疗专业人员有任何联系的女性,以确保观点反映非专业经验。医疗专业人员(医生)如果符合以下条件则符合资格:持有执照的医学博士(MBBS或同等学历),在孕产妇或产前保健方面拥有至少2年临床经验,当前或过去5年内有执业经验,英语流利,并提供知情同意。排除曾参与开发AI聊天机器人或任何相关研究的医生。随后选择了两组参与者测试DIAN聊天机器人:29名经验丰富的医疗专业人员和119名女性。
通过主题分析确定关键关注点:我们收集研究参与者的查询,以全面了解他们遇到的重复问题和关注点。在半结构化访谈中,参与者被提示回答开放式问题,如“怀孕期间会出现哪些常见问题或担忧?”、“您是否了解任何与怀孕相关的患者教育材料?”以及“您是否考虑过使用互联网来研究这些问题?”。回答被转录并进行定性主题分析。两名研究人员独立审查数据并进行归纳编码,以识别重复模式和主题。通过共识和迭代讨论,回答被系统地组织成主要关注领域。我们的分析显示,60%的参与者不知道任何与怀孕相关的患者教育材料,80%的参与者报告依赖互联网作为主要信息来源。一位参与者强调:“我搜索了关于母亲和婴儿健康、婴儿成长以及母亲必须遵循的饮食信息。尤其是初为人母者,常常对是否可以吃某些食物或以特定姿势睡觉感到困惑。”通过此过程确定的最常见主题包括产后护理、孕期健康与并发症、产前准备与支持、饮食与营养、心理与情感健康、分娩偏好与经历以及婴儿的实际准备。数据收集和主题分析迭代进行,两名研究人员独立审查访谈回答并识别新兴主题。招募和访谈持续进行,直到达到主题饱和,定义为从额外参与者输入中不再出现新的主要主题或实质性关注点。此过程确保生成的主题领域充分反映了参与者经验和关注的范围和多样性。
制定和验证代表性问題:基于这些确定的主题,我们制定了一套50个代表性问題,旨在反映参与者表达的关注点的广度和多样性。这套初步问题集随后由经验丰富的医疗专业人员(医生)小组审查和验证,他们评估每个问题的相关性、清晰度以及与基础主题的一致性。结合医生的反馈,完善并最终确定问题集。由此产生的50个问题代表了常见怀孕相关关注点的平衡且经过验证的样本,随后用于评估两组参与者的聊天机器人性能。
调整NHS妊娠手册内容用于聊天机器人回答:为了开发聊天机器人的知识库和回答,我们采用了NHS指南《妊娠手册:健康怀孕、分娩和 childbirth 以及新生儿最初几周的完整指南》的全部内容。选择这本全面、基于证据的指南是因为其广度、临床可靠性和在患者教育中的国家标准地位。全文被整合到聊天机器人的回答中,确保用户能够获得关于怀孕相关主题的整体和权威信息。在为聊天机器人使用进行调整期间,必要时简化了原始指南的语言,以适应我们目标人群的阅读水平,特别是教育水平低于高中的人群。简化涉及解释技术术语和复杂句子以增强理解,同时注意保留医疗建议的准确性和意图。所有调整后的内容在部署到聊天机器人平台之前都经过医疗专业人员的审查,以确保对原始指导的忠实性和对非专业用户的适用性。
可理解性-准确性-可读性(CAR)评分的操作化与评估:我们采用了最近一项为癌症患者开发AI生成医疗回答的研究中详述的评估过程,该研究基于可理解性-准确性-可读性(CAR)评分评估回答。可理解性定义为非专业受众容易理解回答的程度,强调逻辑流程、连贯性和无歧义性;使用PEMAT可理解性标准进行操作化。准确性指信息的事实和临床正确性、与当前产科指南的一致性以及与问题的相关性;通过将每个回答与权威来源(如NHS指南)进行比较并为正确性和完整性分配评分进行操作化。可读性反映语言、词汇和句子结构是否适合教育水平低于高中的人群,避免技术术语和不必要的复杂性;通过Flesch-Kincaid年级水平进行操作化,目标所有回答的分数≤8年级水平。所有回答由评估者使用标准化的4点李克特量表独立评分:1 = 不足,2 = 中等,3 = 良好,4 = 非常好。聊天机器人回答的可读性使用定量和以用户为中心的方法进行评估。对于每个回答,我们检查句子长度和结构,以确保文本简单、简洁且适合非专业读者。此外,要求参与者评价阅读的难易程度,并列出他们觉得困难或不熟悉的单词或短语。此方法遵循既定的患者信息评估框架,该框架建议结合简单的语言分析和用户的直接反馈,以提高可访问性并识别理解障碍。为了控制解释和参与度的变化,所有参与者评估聊天机器人对同一组预定义问题的回答,而不是自由聊天。在评估之前,所有评估者,包括医生和女性,都接受了如何使用CAR框架的培训。此培训包括一起复习示例聊天机器人答案,并讨论应如何对三个CAR类别中的每一个进行评分。目标是确保每个人都以相同的方式理解标准。初步培训后,评估者对一些示例回答进行评分。如果他们对同一示例给出不同的分数,团队会讨论原因。这些讨论有助于澄清任何模糊之处并使每个人的判断保持一致。当评估者对真实的聊天机器人回答进行评分时,每个答案都去除了任何标识其作者或生成情况的信息。这种盲法防止任何有意识或无意识的偏见影响他们的分数。
统计分析
生物通微信公众号
知名企业招聘