比较基于大型语言模型的工具在患者主导的青光眼咨询中的表现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Glaucoma》：Comparing Performance of Large Language Model-Based Tools on Patient-Driven Glaucoma Inquiries

【字体：大中小】 时间：2025年09月29日 来源：Journal of Glaucoma 1.8

编辑推荐：

　　大语言模型在青光眼诊疗信息查询中的性能评估显示，GPT-4o在准确性、全面性和质量上优于Gemini Pro，GPT-4o Mini在全面性和质量上更优，Gemini Flash与Pro无显著差异。可读性评分均值为12.3（Flesch-Kincaid），语义相似度达0.89（BERT）。研究为智能医疗咨询系统开发提供重要参考。

摘要

目的：

大型语言模型（LLMs）可以帮助在线寻求医学知识的患者自行管理青光眼护理。了解LLMs在处理与青光眼相关问题时的表现差异，有助于患者了解获取相关信息的最佳资源。

方法：

这项横断面研究评估了LLMs对青光眼相关问题回答的准确性、全面性、质量及可读性。2024年9月，从美国眼科学会的眼科护理论坛中随机选取了7个患者提出的问题，并分别输入到GPT-4o、GPT-4o Mini、Gemini Pro和Gemini Flash中。四位眼科医生使用李克特量表（Likert scale）从准确性、全面性和质量三个方面对回答进行了评估。Flesch-Kincaid等级用于衡量可读性，而双向编码器表示（BERT）得分则用于衡量LLMs回答之间的语义相似性。统计分析采用了Kruskal-Wallis检验及Dunn的事后检验，或ANOVA分析及Tukey的显著差异检验（HSD）。

结果：

在准确性（P=0.016）、全面性（P=0.007）和质量（P=0.002）方面，GPT-4o的表现优于Gemini Pro；在全面性（P=0.011）和质量（P=0.007）方面，GPT-4o Mini的表现也优于Gemini Pro。Gemini Flash和Gemini Pro在所有评估标准上的表现相似。两者在可读性方面没有差异，且LLMs产生的回答在语义上基本一致。

结论：

在回答关于青光眼的常见问题时，GPT模型的表现优于Gemini Pro，这为LLMs在提供健康信息方面的应用提供了宝贵的见解。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号