人工智能聊天机器人在解答患者假牙常见问题中的卓越表现与提升空间

【字体: 时间:2025年04月16日 来源:BMC Oral Health 2.6

编辑推荐:

  为评估人工智能(AI)聊天机器人在解答患者假牙相关常见问题(FAQs)方面的性能,研究人员收集 31 个 FAQs,让 ChatGPT、Google Gemini 和 Microsoft Copilot 作答。结果显示 Gemini 表现最佳,但其可读性仍需提升。该研究为 AI 聊天机器人在患者教育中的应用提供参考。

  在当今数字化时代,医疗领域正经历着前所未有的变革,人工智能(AI)技术的蓬勃发展为医疗服务带来了新的机遇与挑战。AI 聊天机器人作为其中的重要一环,凭借其能够处理大量文本数据、模仿人类语言模式进行对话的能力,逐渐在医疗场景中崭露头角,比如辅助临床决策、助力科研工作,尤其是在解答患者疑问方面备受关注。然而,AI 聊天机器人并非十全十美,由于训练数据的局限性,它可能给出错误或误导性的答案,这在对信息准确性要求极高的医疗领域是一个严重问题。特别是在患者教育方面,可靠的信息对于患者配合治疗、进行自我护理以及提升长期治疗满意度至关重要,但目前患者对牙科治疗相关知识的了解普遍不足,如无牙患者对假牙卫生知识匮乏,其他牙科领域也存在类似情况。同时,虽然互联网是患者获取医疗信息的主要来源,但网络信息质量参差不齐,难以判断其可靠性。在此背景下,开展对 AI 聊天机器人在医疗领域性能评估的研究迫在眉睫。
伊朗桂兰医科大学牙科学院的研究人员针对这一现状,开展了一项关于评估 AI 聊天机器人在解答患者假牙相关常见问题性能的研究。该研究成果发表在《BMC Oral Health》杂志上。此项研究意义重大,它有助于更深入地了解 AI 聊天机器人在牙科领域的应用效果,为其在患者教育中的合理使用提供依据,推动医疗服务与 AI 技术更好地融合。

研究人员采用了多种关键技术方法来确保研究的科学性和准确性。首先,他们从多个渠道收集问题,包括权威假牙修复组织官网、Google Trends 以及 Google 搜索的 “People Also Ask” 板块,以此获取具有代表性的患者常见问题。然后,选择了 ChatGPT 3.5、Microsoft Copilot 和 Google Gemini 这三款常用的免费聊天机器人进行测试。在评估环节,运用改良的全球质量评分(GQS)让两位专业假牙修复医生对聊天机器人的回答质量进行评分,同时使用 Flesch-Kincaid 等级水平(FKGL)和 Flesch 阅读简易度(FRE)这两个指标来衡量回答的可读性。最后,利用统计学方法,如重复测量方差分析(ANOVA)和 Friedman 检验等对数据进行分析。

在研究结果方面,研究人员从回答质量和可读性两个关键维度展开分析。

  • 回答质量:通过两位经验丰富的假牙修复医生使用 5 分制的改良 GQS 对三款聊天机器人的回答进行评估,结果显示不同聊天机器人的表现存在显著差异。其中,Google Gemini 获得了最高的平均质量得分(4.58 ± 0.50),Microsoft Copilot 得分最低(3.87 ± 0.89)。Friedman 检验表明,三款聊天机器人在回答质量上存在显著差异(P <.001)。进一步的两两比较发现,Gemini 的表现显著优于 Copilot(P =.004),而 ChatGPT 与 Copilot(P>.000)、ChatGPT 与 Gemini(P =.067)之间的差异在统计学上不显著。
  • 可读性:研究人员使用 FKGL 和 FRE 这两个指标对聊天机器人的回答进行可读性评估。FKGL 评估结果显示,ChatGPT 获得了最高的平均得分,其回答的可读性最差,与 Google Gemini 和 Microsoft Copilot 相比存在显著差异(P <.001),而 Gemini 和 Copilot 之间的差异不显著。FRE 评估结果表明,ChatGPT 的平均得分最低,其回答比 Gemini 和 Copilot 的回答更难理解(与 Gemini 相比,P <.001;与 Copilot 相比,P =.002)。Gemini 在这方面得分最高,且 Gemini 与 Copilot 之间的差异具有统计学意义(P =.022)。

综合研究结论和讨论部分,研究人员发现这三款 AI 聊天机器人在回答患者假牙相关常见问题时,虽然总体质量尚可,但偶尔会给出不相关的答案。其中,Google Gemini 在回答质量和可读性方面均表现最佳。然而,从整体来看,聊天机器人回答的可读性仍不理想,几乎所有回答的可读性水平都未达到美国国立卫生研究院建议的标准。这意味着,尽管聊天机器人有潜力成为患者教育的有力工具,但目前的可读性问题可能会阻碍患者获取信息。此外,研究还指出,虽然已有研究在不同领域对聊天机器人进行评估,但结果存在争议,这可能与评估工具的差异以及聊天机器人训练数据的不同有关。未来,需要开发更专门的评估工具,开展更多模拟真实场景的研究,以进一步探索聊天机器人在患者教育和医疗应用中的性能,提升其在医疗领域的应用效果,更好地服务于患者。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号