比较大型语言模型在成人正畸治疗前信息提供中的表现

【字体: 时间:2025年05月29日 来源:BMC Oral Health 2.6

编辑推荐:

  为解决成人正畸患者在线咨询信息不准确的问题,嘉兴市第二医院的研究人员比较了Ernie Bot、ChatGPT和Gemini三种大型语言模型在正畸治疗前信息提供中的表现。结果显示,尽管这些模型在专业性、内容准确性等方面有一定能力,但整体表现仍有不足,需结合专业指导使用。

  

论文解读
随着健康意识的提高和医疗技术的进步,成人正畸治疗的需求显著增加。与青少年患者不同,成年患者在决定接受正畸治疗前往往更加关注面部美学,这导致他们在决策过程中产生许多担忧。因此,这一群体经常依赖在线资源进行正畸咨询。然而,当前的在线环境充斥着广告和错误信息,使得获取准确且有针对性的正畸问题答案变得复杂。近年来,人工智能的进步使得大型语言模型逐渐融入日常生活,许多成年人开始通过智能系统寻求现实问题的建议。研究表明,与传统搜索引擎相比,大型语言模型能够提供更精确和个性化的回应,这可能缓解医疗资源短缺、分布不均和效率低下的问题。然而,也有研究指出,这些智能模型可能会生成完全虚构的科学结论,尽管这些答案看似复杂且无误,但专家在仔细检查后往往能发现语义上的不准确和错误。鉴于正畸学的高度专业化以及患者之间的显著差异,本研究旨在通过开放性问题评估各种大型语言模型回应的准确性,以期为大型语言模型作为成人正畸患者咨询工具的潜在应用提供数据和理论支持。

为了回答这些问题,嘉兴市第二医院的研究人员开展了这项研究。他们选择了三种广泛使用的大型语言模型:Ernie Bot、ChatGPT和Gemini,并收集了50个最常见的成人正畸治疗前咨询问题。这些问题通过门诊咨询记录、电子健康记录文本分析和患者在线问卷调查收集,并经过去重处理后用于测试大型语言模型。研究人员从六个维度评估这些模型的回应:专业性(PA)、内容准确性(AC)、清晰度和易懂性(CC)、个性化和相关性(PR)、信息完整性(IC)以及同理心和以患者为中心(EHC)。评估由四位具有正畸学硕士学位的专家和四位成年患者进行,评分标准基于正畸临床指南、患者信息可读性研究和人工智能生成医疗文本的质量评估。

研究结果表明,各模型在各个维度的得分主要集中在3到4分之间,高质量得分(5分)较少。Ernie Bot在个性化和相关性方面得分最高,而在清晰度和易懂性方面表现尤为突出,70%的得分集中在4分区间。然而,在内容准确性方面,只有32%的得分在4分区间,58%分布在1到3分区间的得分。ChatGPT在个性化方面表现较好,76%的得分集中在4分区间,但在其他维度上表现较为均衡。Gemini在信息完整性和清晰度方面表现较好,大多数得分集中在4分区间。

研究结论和讨论部分强调了大型语言模型在正畸医疗咨询中的应用需谨慎,并应结合专业指导进行验证。尽管这些模型在处理开放性问题时表现出一定能力,但其在专业性、内容准确性、清晰度、个性化、信息完整性和同理心等方面的整体表现仍有不足。未来的研究和技术改进应着重提高人工智能在准确性、信息完整性和人文关怀方面的表现,以更好地满足多样化的临床需求。

此外,研究指出,大型语言模型在专业领域的应用存在局限性,如语义翻译错误和文化背景理解偏差。未来研究应包括多语言测试,系统比较人工智能在不同语言环境下的响应准确性、信息完整性和患者接受度,并深入探讨不同评分维度的权重和复杂性。同时,研究中未明确模型的时间背景,可能导致分析能力的差异,因此需要开发专门针对医疗应用的大型语言模型,可能的途径包括使用基于网络咨询数据的专门训练或与专业正畸团队合作创建新的数据驱动模型。

总之,尽管大型语言模型在处理开放性问题时展现出一定潜力,但其在正畸医疗咨询中的应用仍需谨慎,并需结合专业指导进行验证。未来的研究和开发应致力于提高人工智能的性能,以更好地服务于医疗领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号