
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估ChatGPT-4与Gemini对世界牙科联盟口腔健康常见问题的回答准确性:AI在口腔医疗信息领域的应用研究
【字体: 大 中 小 】 时间:2025年08月04日 来源:BMC Oral Health 3.1
编辑推荐:
本研究针对人工智能(AI)在口腔健康信息领域的应用,评估了ChatGPT-4和Gemini两款大型语言模型(LLMs)对世界牙科联盟(FDI)常见问题的回答准确性。研究人员通过对比分析发现,两款AI在完整性、清晰度方面与FDI回答相当,其中ChatGPT-4在相关性上更接近FDI标准。该研究为AI在口腔健康信息传播中的可靠性提供了实证依据,对推动AI辅助医疗咨询具有重要意义。论文发表于《BMC Oral Health》。
随着人工智能(AI)技术的飞速发展,大型语言模型(LLMs)如ChatGPT-4和Gemini正在重塑医疗信息传播模式。然而,这些AI工具在专业领域的准确性仍待验证,尤其是在口腔健康这类需要高度专业知识的领域。世界牙科联盟(FDI)的常见问题解答是公众获取权威信息的重要渠道,但AI能否提供与之媲美的可靠回答?这一问题直接关系到AI在医疗咨询中的实际应用价值。
伊斯坦布尔阿依登大学牙科学院的研究团队针对这一空白展开研究。他们选取FDI官网上4个典型口腔健康问题,分别向ChatGPT-4和Gemini提问,并通过相似性检测软件iThenticate°对比AI回答与FDI标准答案的差异。研究采用双盲评估机制,两位研究者独立使用3级Likert量表从"核心观点"、"信息质量"、"一致性"和"矛盾点"四个维度进行评分。结果显示,两款AI在信息完整性(p>0.05)和表述清晰度(p>0.05)上与FDI无统计学差异,但ChatGPT-4在问题相关性(p:1.000)和答案准确性(p:0.250)上显著优于Gemini。值得注意的是,AI回答的相似度检测值均低于5%,表明其内容具有原创性而非简单复制。
研究团队采用的关键技术包括:1)通过清除浏览器历史消除算法偏差;2)使用iThenticate°进行文本相似性分析;3)双盲Likert量表评估体系;4)15天间隔的重复测试验证结果稳定性。样本来源于FDI官网公开的常见问题库。
主要研究结果
时间稳定性分析:Gemini两次测试相似度为2%-5%,ChatGPT-4为2%-3%,表明AI回答具有时间一致性。
评估者间一致性:两位研究者对ChatGPT-4在相关性(p:1.000)、准确性(p:0.250)等维度的评估无显著差异。
雷达图对比:ChatGPT-4在"完整性"和"清晰度"上与FDI表现相当,在"相关性"上优于Gemini。
这项研究首次系统评估了LLMs在口腔健康信息领域的表现,证实了ChatGPT-4作为即时健康咨询工具的潜力。尽管AI不能替代专业牙医,但其快速响应和可靠的基础信息支持,特别在疫情等特殊时期,能为公众提供有价值的初级指导。研究同时指出,AI回答缺乏科学文献引用仍是重要局限,未来需要开发专门的口腔健康模块以提升专业性。论文发表在《BMC Oral Health》,为AI在牙科应用的质量控制提供了重要基准。
生物通微信公众号
知名企业招聘