比较基于大型语言模型的工具在患者主导的青光眼咨询中的表现

《Journal of Glaucoma》:Comparing Performance of Large Language Model-Based Tools on Patient-Driven Glaucoma Inquiries

【字体: 时间:2025年09月29日 来源:Journal of Glaucoma 1.8

编辑推荐:

  大语言模型在青光眼诊疗信息查询中的性能评估显示,GPT-4o在准确性、全面性和质量上优于Gemini Pro,GPT-4o Mini在全面性和质量上更优,Gemini Flash与Pro无显著差异。可读性评分均值为12.3(Flesch-Kincaid),语义相似度达0.89(BERT)。研究为智能医疗咨询系统开发提供重要参考。

  

摘要

目的:

大型语言模型(LLMs)可以帮助在线寻求医学知识的患者自行管理青光眼护理。了解LLMs在处理与青光眼相关问题时的表现差异,有助于患者了解获取相关信息的最佳资源。

方法:

这项横断面研究评估了LLMs对青光眼相关问题回答的准确性、全面性、质量及可读性。2024年9月,从美国眼科学会的眼科护理论坛中随机选取了7个患者提出的问题,并分别输入到GPT-4o、GPT-4o Mini、Gemini Pro和Gemini Flash中。四位眼科医生使用李克特量表(Likert scale)从准确性、全面性和质量三个方面对回答进行了评估。Flesch-Kincaid等级用于衡量可读性,而双向编码器表示(BERT)得分则用于衡量LLMs回答之间的语义相似性。统计分析采用了Kruskal-Wallis检验及Dunn的事后检验,或ANOVA分析及Tukey的显著差异检验(HSD)。

结果:

在准确性(P=0.016)、全面性(P=0.007)和质量(P=0.002)方面,GPT-4o的表现优于Gemini Pro;在全面性(P=0.011)和质量(P=0.007)方面,GPT-4o Mini的表现也优于Gemini Pro。Gemini Flash和Gemini Pro在所有评估标准上的表现相似。两者在可读性方面没有差异,且LLMs产生的回答在语义上基本一致。

结论:

在回答关于青光眼的常见问题时,GPT模型的表现优于Gemini Pro,这为LLMs在提供健康信息方面的应用提供了宝贵的见解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号