编辑推荐:
为评估 AI 聊天机器人(ChatGPT-4.0、Microsoft Copilot)和专家对正畸常见问题回答的 adequacy,研究人员开展对比研究。结果显示专家回答评分最高,两 AI 评分可接受但不及专家,为 AI 在正畸应用提供参考。
在数字化浪潮席卷医疗领域的当下,人工智能(AI)正以前所未有的速度渗透到各个细分学科。在正畸学领域,AI 不仅在诊断成像分析、治疗计划制定等方面展现出卓越能力,如 cephalometric analyses(头影测量分析)、clear aligner therapy planning(隐形矫治器治疗计划)等,其衍生的自然语言处理(NLP)技术 ——AI 聊天机器人,更成为患者获取健康信息的新兴渠道。然而,尽管 ChatGPT-4.0、Microsoft Copilot 等聊天机器人凭借庞大的数据集和强大的语言生成能力,能快速响应用户查询,但在医疗场景中,其回答的准确性、可靠性和患者接受度仍存疑。尤其值得关注的是,过往研究多从专业视角评估聊天机器人回答的临床准确性,却鲜少纳入患者视角的考量 —— 毕竟,这些问题的实际提问者是患者,回答能否被患者理解、接受并产生信任,才是决定聊天机器人能否真正发挥辅助作用的关键。在此背景下,Afyonkarahisar 健康科学大学的研究人员开展了一项颇具现实意义的研究,旨在通过患者和正畸医生的双重评分,系统比较 AI 聊天机器人与专家对正畸常见问题回答的充分性,该研究成果发表在《BMC Oral Health》,为 AI 在正畸领域的应用提供了重要的实证依据。
为开展此项研究,研究团队首先从美国正畸协会(AAO)网站的 FAQ 板块提取了 150 个访问量最高的问题,经 8 名资深临床医生筛选后,通过随机化工具最终确定 15 个具有代表性的问题,涵盖疼痛管理、矫治器护理、治疗时长、口腔卫生、饮食限制等患者关心的核心领域。针对每个问题,分别制备三类回答:经正畸医生验证修订的专家意见、ChatGPT-4.0 生成的回答、Microsoft Copilot 生成的回答。随后,通过 Google Forms 平台向 52 名具有至少 4 年临床经验的正畸医生(平均年龄 32.21±5.72 岁)和 102 名正在接受固定矫治器治疗的患者(平均年龄 19.47±4.36 岁)发放调查问卷,采用 10 点李克特量表(1 = 最不充分,10 = 最充分)对回答的充分性、清晰度和实用性进行评分。研究还通过 Flesch-Kincaid 阅读难度测试评估回答的可读性,并运用 SPSS 软件进行统计分析,包括 Cronbach’s Alpha 信度检验、Shapiro–Wilk 正态性检验、One-Way ANOVA、Kruskal–Wallis 检验及 Bonferroni、Tamhane 事后检验等。
研究结果
正畸医生评估结果
专家回答在多数问题中表现突出,评分范围为 7.11±2.16(Q14:托槽或钢丝松动)至 8.72±1.33(Q9:口腔卫生)。尤其在治疗期间疼痛(Q1)、治疗时长(Q2)、保持器使用时间(Q4)、口腔卫生(Q9)、治疗期间饮食限制(Q11)等关键问题上,专家评分显著高于 ChatGPT-4.0 和 Microsoft Copilot(P<0.05)。ChatGPT-4.0 在托槽或钢丝松动问题(Q14)中表现最佳,得分为 8.16±1.24,但在保持器使用时间(Q4,5.84±2.44)等问题上与专家存在显著差异(P<0.05)。Microsoft Copilot 整体评分最低,在饮食限制(Q11,5.70±2.41)等问题上显著低于专家和 ChatGPT-4.0(P<0.001),仅在 Q3(保持器使用时间)、Q12(托槽断裂)等少数问题上与其他组无显著差异(P>0.05)。
患者评估结果
患者对专家回答的评分趋势与正畸医生一致,评分范围为 7.12±2.43(Q3:保持器使用时间)至 8.92±1.55(Q6:保持器断裂)。在治疗疼痛(Q1)、治疗时长(Q2)、保持器使用时间(Q4)、保持器断裂(Q6)、饮食限制(Q11)等问题上,专家评分显著高于 AI 聊天机器人(P<0.05)。ChatGPT-4.0 在治疗并发症(Q5)中表现优异,得分为 8.53±1.97,但在治疗疼痛(Q1)、刷牙时长(Q9)等问题上评分低于专家(P<0.05)。Microsoft Copilot 在紧急情况(Q13,6.71±2.66)等问题上评分较低,仅在托槽断裂(Q12)等少数问题上接近 ChatGPT-4.0 水平。
两组评估差异
对于专家回答,多数问题在正畸医生与患者间评分无显著差异(P>0.05),但患者在治疗并发症(Q5)、饮食限制(Q11)等问题上给予专家更高评分(P<0.05)。在 ChatGPT-4.0 回答的评估中,患者对保持器使用时间(Q4)、刷牙时长(Q9)等问题的评分显著高于医生(P<0.05),反映出患者对 AI 回答的接受度与专业视角存在差异。Microsoft Copilot 回答则呈现患者评分普遍高于医生的趋势,尤其在治疗疼痛(Q1)、饮食限制(Q11)等问题上差异显著(P<0.001)。
研究结论与讨论
研究结果显示,尽管 ChatGPT-4.0 和 Microsoft Copilot 的评分均达到可接受水平(6.0 及以上),但专家回答在准确性、细节深度和临床权威性上仍具有不可替代的优势,尤其在涉及个性化治疗方案、紧急情况处理和复杂并发症的问题中表现突出。这一发现印证了临床经验在医疗决策中的核心地位,也提示 AI 聊天机器人目前尚无法完全复制专家的专业判断。
值得注意的是,ChatGPT-4.0 在部分非核心问题(如托槽松动的临时修复建议)中展现出与专家接近的表现,且其对话式语言风格更易被患者接受,表明 AI 在普及基础健康知识、提供标准化流程指导等方面具有潜在价值。Microsoft Copilot 因回答偏技术化、缺乏情感化表达,整体评分较低,提示 AI 系统需在语言亲和力和患者需求导向优化方面下功夫。
研究还揭示了患者与专业人士在信息需求上的差异:患者更关注答案的实用性、易懂性和情感支持(如疼痛管理的具体操作建议),而医生更看重内容的科学严谨性和循证依据。这种差异为 AI 系统的优化指明了方向 —— 未来需通过调整算法、引入医患双视角训练数据,使聊天机器人既能满足患者对简洁明了指导的需求,又能符合医疗专业标准。
尽管存在样本局限(仅涉及固定矫治器治疗问题、两种 AI 模型),但该研究首次将患者纳入 AI 聊天机器人评估体系,填补了过往研究的空白,为正畸领域 AI 应用的规范化发展提供了重要参考。随着技术的进步,或许在不久的将来,AI 聊天机器人能以更智能、更人性化的方式,成为医患沟通的得力助手,但其始终无法取代人类专家的核心地位 —— 毕竟,医疗服务的温度与深度,从来都不止于数据与算法。