深度评估四种AI聊天机器人对口腔颌面修复患者咨询的应答质量:准确性、可读性与临床应用价值

【字体: 时间:2025年06月01日 来源:BMC Oral Health 2.6

编辑推荐:

  本研究针对老年患者及照护者获取口腔修复专业信息的难题,对比评估了DeepSeek-R1、ChatGPT-o1、ChatGPT-4和Dental GPT四种AI聊天机器人在牙科及颌面修复咨询中的表现。通过Likert 5点量表、GQS质量评分和PEMAT-P工具等系统分析,发现领域专用模型Dental GPT准确性最优但可读性较差,为AI医疗咨询工具的优化选择提供了循证依据。

  

随着全球老龄化加剧,60岁以上人群牙列缺失率高达22.7%,口腔修复体与颌面假体的正确使用和维护直接影响患者营养摄入、言语功能和生活质量。然而老年患者因行动不便导致牙科就诊率低下,英国调查显示65岁以上人群年度牙科复查缺席率最高。传统医疗咨询模式难以满足这一特殊群体持续增长的健康信息需求,而网络信息鱼龙混杂可能引发误导风险。在此背景下,人工智能聊天机器人凭借24小时在线的即时响应能力,成为弥补医患信息鸿沟的潜在解决方案。

为评估现有AI工具的临床应用可靠性,研究人员开展了一项开创性研究,系统比较了四种主流聊天机器人(通用型模型ChatGPT-4、ChatGPT-o1、DeepSeek-R1与牙科专用模型Dental GPT)对35项常见修复治疗咨询的应答质量。研究采用双盲评估设计,由两位修复学专家通过标准化工具对回答的准确性(5点Likert量表)、质量(GQS)、可读性(FRE/FKGL)及可理解性(PEMAT-P)进行多维度量化分析。

关键技术方法包括:1)通过多轮筛选确定35项高频临床问题;2)采用单日单会话查询消除交叉干扰;3)应用Cohen Kappa检验确保评估者间一致性(κ=0.78-0.94);4)通过Kruskal-Wallis和ANOVA进行组间差异分析。

研究结果揭示:
【准确性】Dental GPT与ChatGPT-o1表现最优(p<0.001),但DeepSeek-R1在颌面假体着色顺序等专业问题上存在明显错误。
【可读性】DeepSeek-R1的Flesch易读性评分最高(50.1),而Dental GPT最低(37.7),所有模型所需阅读年级水平(FKGL 9.42-10.70)超出医疗文献推荐标准。
【质量评估】四组GQS评分无显著差异(中位数均为5),PEMAT-P显示理解度均达87%以上,但行动指引效能仅40-60%。

讨论指出,尽管领域专用AI在准确性上展现优势,但其复杂的专业表述可能阻碍老年患者理解。研究首次证实:1)通用模型ChatGPT-o1在保持高准确性的同时,其详尽的解释风格更符合患者教育需求;2)成本更低的DeepSeek-R1在基础咨询中表现媲美高端模型;3)所有AI工具在行动指引方面均有待加强。该成果为医疗AI开发提供了重要启示:在提升专业准确性的同时,必须优化信息呈现方式以适应不同教育背景的用户群体。

论文发表于《BMC Oral Health》,为口腔健康数字化服务提供了关键的质量控制标准。研究特别强调,即便高准确性的AI回复,仍需要建立临床验证机制以防止错误信息导致的延误诊治。随着DeepSeek-R1等本土模型的崛起,该研究也为非英语医疗AI的优化发展提供了重要参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号