《Journal Fran?ais d'Ophtalmologie》:Evaluation of appropriateness and readability of responses of large language models (ChatGPT-4o, Gemini, DeepSeek and Copilot) to frequently asked questions about congenital nasolacrimal duct obstruction
编辑推荐:
先天性鼻泪管梗阻(CNLDO)常见问题(FAQs)四个大型语言模型(LLMs)的适当性及可读性对比研究。通过25个分类QA测试,DeepSeek在治疗管理类准确率最高(P=0.001),但可读性最差;Gemini和Copilot可读性更优。结论:DeepSeek临床信息最全面但易读性低,需平衡专业性与用户友好性。
M.M. S?nmez | E.E. Baydemir | E.S. Elibol
土耳其伊斯坦布尔Goztepe Prof. Dr. Suleyman Yalc?n市医院卫生部眼科
摘要
目的
比较四种不同大型语言模型(LLMs)对先天性鼻泪管阻塞(CNLDO)相关常见问题的回答在恰当性和可读性方面的表现。
方法
四种LLMs(ChatGPT-4o、Gemini、DeepSeek和Microsoft Copilot)被用来回答25个与CNLDO相关的常见问题(FAQs)。两位经验丰富的眼整形外科医生使用李克特量表(Likert scale)评估了这些回答的恰当性和完整性。此外,还使用在线可读性工具对回答的可读性进行了评估。
结果
ChatGPT-4o在治疗和管理方面的准确性显著更高(P值=0.001)。总体而言,DeepSeek在所有类别中提供了最恰当的回答(P值=0.001)。尽管DeepSeek获得了最高的总李克特分数,但各模型之间的差异并不具有统计学意义(P值=0.2)。在可读性方面,Gemini和Copilot生成的文本更易于理解,而DeepSeek的回答则更为复杂和结构化。
结论
DeepSeek在所有与CNLDO相关的问题上表现出更好的恰当性和完整性。然而,其回答的可读性低于其他LLMs,这可能会限制部分用户的理解能力。
引言
先天性鼻泪管阻塞(CNLDO)是婴儿中最常见的泪液引流障碍,影响着6-20%的新生儿[1]。该病主要是由于鼻泪管远端出现膜性阻塞所致。虽然大约96%的病例在1岁前可以自愈,但持续流泪和结痂可能会让父母感到担忧[2]。为了更好地了解这种状况及其管理方法,许多父母会在咨询医生之前或之后通过互联网搜索健康相关信息。
随着人们对互联网医疗指导的依赖程度不断增加,获取准确、及时且易于理解的健康信息变得至关重要。一项横断面研究显示,84.7%的受访者使用互联网为自己或家人搜索健康信息[3]。然而,在线医疗内容的准确性和清晰度差异很大,误导性或过于复杂的信息可能会导致不必要的家长焦虑,甚至延误医疗干预[4]。
自然语言处理(NLP)的最新进展催生了诸如OpenAI的GPT-4o、Microsoft Copilot、Google的Gemini和DeepSeek等大型语言模型(LLMs),这些模型能够生成流畅且符合上下文的用户查询答案[4-7]。尽管这些系统在健康交流中的使用日益增多,但它们提供临床准确和易读回答的能力仍需进一步研究[8-10]。
这项探索性比较研究旨在评估四种最先进的LLMs在生成CNLDO相关常见问题(FAQs)回答方面的表现。具体而言,该研究评估了(1)回答的恰当性(通过临床相关性、准确性和连贯性来衡量)以及(2)其可读性,即信息被非专业人士理解的难易程度。通过在这两个维度上对这些模型进行基准测试,本研究旨在识别它们的优势和局限性,并探讨AI生成的内容如何在现实世界的儿科眼科情境中帮助或误导家长的理解。
材料与方法
这项探索性、横断面的比较研究于2024年2月24日至28日进行。研究目的是评估四种领先的大型语言模型(ChatGPT-4o(OpenAI)、Gemini(Google)、Microsoft Copilot和DeepSeek)生成的回答的恰当性和可读性。由于该研究不涉及人类参与者或临床干预,因此无需伦理委员会批准。研究遵循了《赫尔辛基宣言》的原则。
结果
选定的25个问题被分为五组:一般信息(5个)、症状和诊断(5个)、治疗和管理(7个)、外科治疗(6个)以及并发症和预后(2个)(表1)。
表2总结了这些类别中聊天机器人回答的分布情况,分为恰当、不完整或不恰当。
在五个类别中,治疗和管理方面的聊天机器人表现存在统计学上的显著差异。
讨论
在这项研究中,我们评估了四种LLMs(ChatGPT-4o、DeepSeek、Gemini和Copilot)在生成CNLDO相关常见问题(FAQs)回答方面的表现。这些模型在回答的恰当性、用户满意度(通过李克特量表)和可读性方面接受了评估。研究结果表明,尽管大多数类别中的聊天机器人表现相当,但在治疗和管理领域存在统计学上的显著差异——这是一个临床敏感的领域。
结论
在所评估的模型中,DeepSeek在回答的准确性和恰当性方面表现最佳,尤其是在治疗和预后等临床敏感类别中。然而,其回答在可读性方面最为复杂,这可能会降低健康素养较低用户的理解能力。ChatGPT-4o和Gemini的表现更为平衡,既具有较高的准确性,又具有良好的可读性。相比之下,Copilot在关键领域的表现较弱。
资金
本文的研究、作者身份及发表均未获得任何资金支持。
利益冲突声明
作者声明没有利益冲突。