
-
生物通官微
陪你抓住生命科技
跳动的脉搏
比较基于大型语言模型的工具在患者主导的青光眼咨询中的表现
《Journal of Glaucoma》:Comparing Performance of Large Language Model-Based Tools on Patient-Driven Glaucoma Inquiries
【字体: 大 中 小 】 时间:2025年09月29日 来源:Journal of Glaucoma 1.8
编辑推荐:
大语言模型在青光眼诊疗信息查询中的性能评估显示,GPT-4o在准确性、全面性和质量上优于Gemini Pro,GPT-4o Mini在全面性和质量上更优,Gemini Flash与Pro无显著差异。可读性评分均值为12.3(Flesch-Kincaid),语义相似度达0.89(BERT)。研究为智能医疗咨询系统开发提供重要参考。
大型语言模型(LLMs)可以帮助在线寻求医学知识的患者自行管理青光眼护理。了解LLMs在处理与青光眼相关问题时的表现差异,有助于患者了解获取相关信息的最佳资源。
这项横断面研究评估了LLMs对青光眼相关问题回答的准确性、全面性、质量及可读性。2024年9月,从美国眼科学会的眼科护理论坛中随机选取了7个患者提出的问题,并分别输入到GPT-4o、GPT-4o Mini、Gemini Pro和Gemini Flash中。四位眼科医生使用李克特量表(Likert scale)从准确性、全面性和质量三个方面对回答进行了评估。Flesch-Kincaid等级用于衡量可读性,而双向编码器表示(BERT)得分则用于衡量LLMs回答之间的语义相似性。统计分析采用了Kruskal-Wallis检验及Dunn的事后检验,或ANOVA分析及Tukey的显著差异检验(HSD)。
在准确性(P=0.016)、全面性(P=0.007)和质量(P=0.002)方面,GPT-4o的表现优于Gemini Pro;在全面性(P=0.011)和质量(P=0.007)方面,GPT-4o Mini的表现也优于Gemini Pro。Gemini Flash和Gemini Pro在所有评估标准上的表现相似。两者在可读性方面没有差异,且LLMs产生的回答在语义上基本一致。
在回答关于青光眼的常见问题时,GPT模型的表现优于Gemini Pro,这为LLMs在提供健康信息方面的应用提供了宝贵的见解。