深度评估四种AI聊天机器人对口腔颌面修复患者咨询的应答质量：准确性、可读性与临床应用价值

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月01日 来源：BMC Oral Health 2.6

编辑推荐：

　　本研究针对老年患者及照护者获取口腔修复专业信息的难题，对比评估了DeepSeek-R1、ChatGPT-o1、ChatGPT-4和Dental GPT四种AI聊天机器人在牙科及颌面修复咨询中的表现。通过Likert 5点量表、GQS质量评分和PEMAT-P工具等系统分析，发现领域专用模型Dental GPT准确性最优但可读性较差，为AI医疗咨询工具的优化选择提供了循证依据。

随着全球老龄化加剧，60岁以上人群牙列缺失率高达22.7%，口腔修复体与颌面假体的正确使用和维护直接影响患者营养摄入、言语功能和生活质量。然而老年患者因行动不便导致牙科就诊率低下，英国调查显示65岁以上人群年度牙科复查缺席率最高。传统医疗咨询模式难以满足这一特殊群体持续增长的健康信息需求，而网络信息鱼龙混杂可能引发误导风险。在此背景下，人工智能聊天机器人凭借24小时在线的即时响应能力，成为弥补医患信息鸿沟的潜在解决方案。

为评估现有AI工具的临床应用可靠性，研究人员开展了一项开创性研究，系统比较了四种主流聊天机器人（通用型模型ChatGPT-4、ChatGPT-o1、DeepSeek-R1与牙科专用模型Dental GPT）对35项常见修复治疗咨询的应答质量。研究采用双盲评估设计，由两位修复学专家通过标准化工具对回答的准确性（5点Likert量表）、质量（GQS）、可读性（FRE/FKGL）及可理解性（PEMAT-P）进行多维度量化分析。

关键技术方法包括：1）通过多轮筛选确定35项高频临床问题；2）采用单日单会话查询消除交叉干扰；3）应用Cohen Kappa检验确保评估者间一致性（κ=0.78-0.94）；4）通过Kruskal-Wallis和ANOVA进行组间差异分析。

研究结果揭示：
【准确性】Dental GPT与ChatGPT-o1表现最优（p<0.001），但DeepSeek-R1在颌面假体着色顺序等专业问题上存在明显错误。
【可读性】DeepSeek-R1的Flesch易读性评分最高（50.1），而Dental GPT最低（37.7），所有模型所需阅读年级水平（FKGL 9.42-10.70）超出医疗文献推荐标准。
【质量评估】四组GQS评分无显著差异（中位数均为5），PEMAT-P显示理解度均达87%以上，但行动指引效能仅40-60%。

讨论指出，尽管领域专用AI在准确性上展现优势，但其复杂的专业表述可能阻碍老年患者理解。研究首次证实：1）通用模型ChatGPT-o1在保持高准确性的同时，其详尽的解释风格更符合患者教育需求；2）成本更低的DeepSeek-R1在基础咨询中表现媲美高端模型；3）所有AI工具在行动指引方面均有待加强。该成果为医疗AI开发提供了重要启示：在提升专业准确性的同时，必须优化信息呈现方式以适应不同教育背景的用户群体。

论文发表于《BMC Oral Health》，为口腔健康数字化服务提供了关键的质量控制标准。研究特别强调，即便高准确性的AI回复，仍需要建立临床验证机制以防止错误信息导致的延误诊治。随着DeepSeek-R1等本土模型的崛起，该研究也为非英语医疗AI的优化发展提供了重要参考。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号