人工智能生成儿科牙科建议的质量比较：ChatGPT、Gemini与Copilot的临床准确性评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月16日 来源：Frontiers in Oral Health 3.1

编辑推荐：

　　这篇研究首次系统评估了ChatGPT、Google Gemini和Microsoft Copilot在儿科牙科咨询中的表现。通过30个真实临床问题测试，采用五维评分标准（准确性、清晰度、完整性、相关性和无误导性），发现ChatGPT在MANOVA分析中显著优于其他模型（Pillai's Trace=0.892，p<0.001），为AI在儿童口腔健康咨询中的应用提供了循证依据。

1 引言

人工智能(AI)正在重塑医疗健康领域的信息交互模式，尤其在儿科牙科这个需要兼顾专业性与家长沟通的特殊领域。随着ChatGPT、Gemini和Copilot等自然语言处理(NLP)工具的普及，家长们越来越依赖这些即时咨询平台解决儿童口腔问题。然而，现有研究多聚焦于牙科教育或资格考试场景，缺乏对真实世界家长咨询场景的系统评估。

儿科牙科涉及乳牙早失、间隙维持等独特问题，AI回答的质量直接影响家长决策。尤其对农村和资源匮乏地区，可靠的数字健康咨询工具可能成为医疗公平的重要突破口。值得注意的是，虽然卷积神经网络在牙科影像诊断中已达97%准确率，但对话式AI的临床适用性仍待验证。

2 材料与方法

研究团队开发了包含30个真实临床问题的标准化问卷，涵盖乳牙拔除时机、间隙维持器使用等核心议题。三位资深儿科牙医采用5分制Likert量表，从五个维度对三大AI模型的回答进行盲评。评分标准经过严格设计，组内相关系数(ICC)显示评估者间信度达到0.689-0.909。

统计方法颇具特色：除常规ANOVA外，还采用多元方差分析(MANOVA)处理各维度间的交互作用。尽管Box's M检验显示方差齐性假设被违反(p<0.001)，但采用稳健的Pillai's Trace指标确保了结果可靠性。效应量采用ω²计算，避免小样本偏差。

3 结果

数据分析呈现显著差异：在准确性维度，ChatGPT以接近满分的4.97分(标准差0.18)遥遥领先，Gemini得4.60分，Copilot仅3.97分。典型案例如乳牙拔除咨询中，ChatGPT能详细解释生物学机制，而Copilot的回答存在模糊表述可能引发误解。

多元分析显示AI模型对综合评分存在强效应(Pillai's Trace=0.892)。具体来看：

•
清晰度：ChatGPT(4.68分)采用更符合家长认知水平的表述
•
完整性：在间隙维持器问题中，ChatGPT覆盖了适应症、禁忌症等关键点
•
无误导信息：Copilot在牙齿萌出时间等问题上存在潜在误导风险

4 讨论

ChatGPT的优异表现可能源于其强化学习人类反馈(RLHF)机制和大规模预训练。相比之下，Copilot在临床推理深度和细节呈现上明显不足，这可能与其较小的专业数据集有关。值得注意的是，所有模型在文化敏感性方面均有提升空间——这对破除口腔健康误区尤为重要。

从临床转化角度看，这些AI工具可作为：

• 预诊教育材料生成器

• 远程会诊的决策支持系统(CDSS)

• 医患沟通的辅助桥梁

但必须强调，AI目前仅适合作为专业诊疗的补充。特别是在生长发育评估等复杂场景，人类专家的判断仍不可替代。未来研究应关注：

→ 不同文化背景下的应答适配性

→ 动态交互中的表现稳定性

→ 家长实际应用后的行为改变

5 展望

随着大语言模型(LLM)的迭代升级，其在儿科牙科的应用前景广阔。建议开发者：

1.
纳入更多专业学会指南如AAPD的标准
2.
建立实时临床验证机制
3.
开发多语言版本服务少数族群

这项研究为AI在儿童口腔健康领域的应用设立了首个质量基准，也为数字健康工具的监管提供了重要参考。在医疗资源分布不均的当下，经过严格验证的AI咨询工具或将成为改善全民口腔健康的重要助力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号