
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于角色的评估:人工智能聊天机器人在正畸急诊场景中的响应表现——准确性、可读性、易理解性以及以患者为中心的沟通能力
《BMC Oral Health》:Role-based evaluation of artificial intelligence chatbot responses in orthodontic emergency scenarios: accuracy, readability, understandability, and patient-oriented communication
【字体: 大 中 小 】 时间:2026年06月09日 来源:BMC Oral Health 3.1
编辑推荐:
摘要研究目的本研究探讨了聊天机器人在应对正畸紧急情况时,在准确性、可读性、可理解性和内部一致性方面的角色差异,并分析了以患者为中心的沟通方式在临床实践中的意义。研究方法研究人员向四个聊天机器人(ChatGPT-4o、Claude 3 Opus、Microsoft Copilot
本研究探讨了聊天机器人在应对正畸紧急情况时,在准确性、可读性、可理解性和内部一致性方面的角色差异,并分析了以患者为中心的沟通方式在临床实践中的意义。
研究人员向四个聊天机器人(ChatGPT-4o、Claude 3 Opus、Microsoft Copilot 和 Gemini 2.5)展示了23个标准化的正畸紧急情况场景,这些机器人分别模拟了患者和正畸医生的角色。正畸专家和研究助理使用3点李克特量表评估了机器人的回答准确性,同时利用Atesman指数、Sonmez公式和Cronbach’s α系数来评估其可读性、可理解性和内部一致性。此外,还通过预定义的沟通维度对患者角色的机器人回答进行了描述性分析,以帮助理解定量研究结果。
研究发现,不同聊天机器人在不同角色下的表现存在显著差异:Claude 3 Opus(p = 0.001)和Gemini 2.5(p = 0.023)在扮演正畸医生角色时表现出更高的准确性。在患者角色下,ChatGPT-4o和Claude 3 Opus提供的信息正确率最高;其中Claude 3 Opus在正畸医生角色下的表现尤为突出。患者角色的机器人回答比正畸医生角色的回答更易于理解(p < 0.05)。ChatGPT-4o(α = 0.862)和Gemini 2.5(α = 0.815)的内部一致性较高。定性分析表明,以患者为中心的回答通常采用令人安心的语气,并强调了临时自我护理策略,这可能影响了人们对正畸紧急情况的紧迫感。
聊天机器人的表现因用户角色而异。尽管各模型之间的可读性相似,但以患者为中心的回答更易于理解,这可能会影响人们对紧急情况的感知以及他们对专业责任的认知,因此需要谨慎地构建聊天机器人生成的信息,以便为正畸紧急情况提供指导。
聊天机器人可以在正畸紧急情况下提供初步信息;然而,由于其在准确性和一致性方面存在局限性,它们应仅作为辅助工具使用,而不能替代专业的临床判断。
本研究探讨了聊天机器人在应对正畸紧急情况时,在准确性、可读性、可理解性和内部一致性方面的角色差异,并分析了以患者为中心的沟通方式在临床实践中的意义。
研究人员向四个聊天机器人(ChatGPT-4o、Claude 3 Opus、Microsoft Copilot 和 Gemini 2.5)展示了23个标准化的正畸紧急情况场景,这些机器人分别模拟了患者和正畸医生的角色。正畸专家和研究助理使用3点李克特量表评估了机器人的回答准确性,同时利用Atesman指数、Sonmez公式和Cronbach’s α系数来评估其可读性、可理解性和内部一致性。此外,还通过预定义的沟通维度对患者角色的机器人回答进行了描述性分析,以帮助理解定量研究结果。
研究发现,不同聊天机器人在不同角色下的表现存在显著差异:Claude 3 Opus(p = 0.001)和Gemini 2.5(p = 0.023)在扮演正畸医生角色时表现出更高的准确性。在患者角色下,ChatGPT-4o和Claude 3 Opus提供的信息正确率最高;其中Claude 3 Opus在正畸医生角色下的表现尤为突出。患者角色的机器人回答比正畸医生角色的回答更易于理解(p < 0.05)。ChatGPT-4o(α = 0.862)和Gemini 2.5(α = 0.815)的内部一致性较高。定性分析表明,以患者为中心的回答通常采用令人安心的语气,并强调了临时自我护理策略,这可能影响了人们对正畸紧急情况的紧迫感。
聊天机器人的表现因用户角色而异。尽管各模型之间的可读性相似,但以患者为中心的回答更易于理解,这可能会影响人们对紧急情况的感知以及他们对专业责任的认知,因此需要谨慎地构建聊天机器人生成的信息,以便为正畸紧急情况提供指导。
聊天机器人可以在正畸紧急情况下提供初步信息;然而,由于其在准确性和一致性方面存在局限性,它们应仅作为辅助工具使用,而不能替代专业的临床判断。