评估ChatGPT-4与Gemini对世界牙科联盟口腔健康常见问题的回答准确性：AI在口腔医疗信息领域的应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月04日 来源：BMC Oral Health 3.1

编辑推荐：

　　本研究针对人工智能（AI）在口腔健康信息领域的应用，评估了ChatGPT-4和Gemini两款大型语言模型（LLMs）对世界牙科联盟（FDI）常见问题的回答准确性。研究人员通过对比分析发现，两款AI在完整性、清晰度方面与FDI回答相当，其中ChatGPT-4在相关性上更接近FDI标准。该研究为AI在口腔健康信息传播中的可靠性提供了实证依据，对推动AI辅助医疗咨询具有重要意义。论文发表于《BMC Oral Health》。

随着人工智能（AI）技术的飞速发展，大型语言模型（LLMs）如ChatGPT-4和Gemini正在重塑医疗信息传播模式。然而，这些AI工具在专业领域的准确性仍待验证，尤其是在口腔健康这类需要高度专业知识的领域。世界牙科联盟（FDI）的常见问题解答是公众获取权威信息的重要渠道，但AI能否提供与之媲美的可靠回答？这一问题直接关系到AI在医疗咨询中的实际应用价值。

伊斯坦布尔阿依登大学牙科学院的研究团队针对这一空白展开研究。他们选取FDI官网上4个典型口腔健康问题，分别向ChatGPT-4和Gemini提问，并通过相似性检测软件iThenticate°对比AI回答与FDI标准答案的差异。研究采用双盲评估机制，两位研究者独立使用3级Likert量表从"核心观点"、"信息质量"、"一致性"和"矛盾点"四个维度进行评分。结果显示，两款AI在信息完整性（p>0.05）和表述清晰度（p>0.05）上与FDI无统计学差异，但ChatGPT-4在问题相关性（p:1.000）和答案准确性（p:0.250）上显著优于Gemini。值得注意的是，AI回答的相似度检测值均低于5%，表明其内容具有原创性而非简单复制。

研究团队采用的关键技术包括：1）通过清除浏览器历史消除算法偏差；2）使用iThenticate°进行文本相似性分析；3）双盲Likert量表评估体系；4）15天间隔的重复测试验证结果稳定性。样本来源于FDI官网公开的常见问题库。

主要研究结果

时间稳定性分析：Gemini两次测试相似度为2%-5%，ChatGPT-4为2%-3%，表明AI回答具有时间一致性。
评估者间一致性：两位研究者对ChatGPT-4在相关性（p:1.000）、准确性（p:0.250）等维度的评估无显著差异。
雷达图对比：ChatGPT-4在"完整性"和"清晰度"上与FDI表现相当，在"相关性"上优于Gemini。

这项研究首次系统评估了LLMs在口腔健康信息领域的表现，证实了ChatGPT-4作为即时健康咨询工具的潜力。尽管AI不能替代专业牙医，但其快速响应和可靠的基础信息支持，特别在疫情等特殊时期，能为公众提供有价值的初级指导。研究同时指出，AI回答缺乏科学文献引用仍是重要局限，未来需要开发专门的口腔健康模块以提升专业性。论文发表在《BMC Oral Health》，为AI在牙科应用的质量控制提供了重要基准。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号