《Public Health》:Multidomain expert evaluation of leading large language models as providers of vaccination and preventive medicine information
编辑推荐:
目标:疫苗接种是最有效的公共卫生干预措施之一。大型语言模型(LLMs)在提供健康信息方面显示出巨大潜力。本研究比较了ChatGPT 3.5 (G3E)、英语版ChatGPT 4o (G4E)、Claude 3.0 (CDE)、Gemini 1.5 (GME)以
目标:疫苗接种是最有效的公共卫生干预措施之一。大型语言模型(LLMs)在提供健康信息方面显示出巨大潜力。本研究比较了ChatGPT 3.5 (G3E)、英语版ChatGPT 4o (G4E)、Claude 3.0 (CDE)、Gemini 1.5 (GME)以及意大利语版ChatGPT 4o (G4I)在提供疫苗接种和预防医学信息方面的表现。研究设计:评估大型语言模型的混合方法分析。方法:研究人员使用26个专家设计的医疗场景,通过改编的基于DISCERN的工具评估每个模型。四位专家独立对六个领域(信息可靠性、信息质量、医学适宜性、对疫苗犹豫的影响、行为影响潜力以及总体评分)的输出来评分。计算中位数和四分位距,并应用混合效应有序逻辑回归模型以考虑评分者间的变异。结果:G4E表现最佳,在总体评分(OR=2.17, 95% CI: 1.20–3.92, p=0.010)和医学适宜性(OR=1.86, 95% CI: 1.04–3.33, p=0.036)方面具有显著优势。G4I在信息质量(OR=1.76, 95% CI: 1.06–2.93, p=0.030)方面优于其他模型,但在疫苗犹豫和行为影响方面得分较低。GME在定性领域表现较弱,偶尔出现生成问题,而CDE和G3E表现中等且一致。结论:LLMs之间的差异反映了模型架构、训练数据和语言适应性,影响清晰度、准确性和说服语调。这些差异凸显了领域特定微调和语言敏感优化的必要性,以增强公共卫生沟通。LLMs在提供准确且行为有效的疫苗信息方面表现不一,这强调了评估以及谨慎纳入健康传播策略的重要性。
### 研究背景与问题
疫苗接种作为最有效的公共卫生干预措施之一,显著降低了疾病发病率和死亡率,并为医疗系统节省了大量经济成本。然而,近年来疫苗犹豫现象日益突出,这一由社会、经济、文化、教育及政治等多因素驱动的复杂行为,因错误信息和信息疫情(infodemic)的蔓延而加剧,导致全球疫苗接种覆盖率下降。在此背景下,大型语言模型(LLMs)作为人工智能(AI)系统,通过大规模文本训练具备处理与生成人类语言的能力,被广泛应用于医疗研究和临床实践,为公民和患者提供健康信息并影响其决策。然而,现有研究对LLMs在健康话题上的表现评价不一,既凸显其在支持临床实践、改善患者沟通方面的潜力,也揭示出领域特定优化不足、数据来源不透明、不完整、不准确及算法偏见等局限性。尤其在与疫苗犹豫相关的关键公共卫生话题上,缺乏基于专家评估的标准化评价体系。为此,研究人员开展了一项混合方法研究,旨在评估四种主流LLMs(ChatGPT 3.5、ChatGPT 4o、Claude 3.0和Gemini 1.5)作为疫苗接种和预防医学信息来源的性能,为公共卫生策略中AI工具的整合提供依据。该研究发表在《Public Health》。
### 主要关键技术方法
研究人员采用混合方法设计,以26个专家撰写的医疗场景(模拟普通公众关于疫苗接种和传染病预防的提问)为基础,利用零样本提示(zero-shot prompting)技术向五个LLM(G3E、G4E、CDE、GME及意大利语版G4I)输入单一指令,不进行后续交互。通过改编自DISCERN工具的评估框架(覆盖信息可靠性、信息质量、医学适宜性、对疫苗犹豫的影响、行为影响潜力及总体评分六个领域),四位具有卫生学与预防医学资质的专家独立盲评所有输出。统计分析包括描述性统计、Gwet's AC2一致性检验、配对Wilcoxon符号秩检验、Friedman检验及混合效应有序逻辑回归模型,以控制评分者变异。
### 研究结果
#### 3.1 描述性结果
研究人员共获得112个输出(G3E 26个、CDE 26个、G4I 26个、GME 8个),GME在成功生成8个英语输出后反复返回“只能作为聊天机器人”的自我抑制信息,因此仅纳入8个输出。定量验证显示,10次重复提示的三元组(triad)在词汇相似性(TF?IDF质心余弦相似度均值0.881)和语义相似性(嵌入余弦相似度均值0.703)上均表现出一致的高再现性。所有模型在信息可靠性和信息质量的中位数均为3,医学适宜性中位数为4;G4E、G4I和CDE的总体评分中位数为4,高于G3E的3。GME在医学适宜性(中位数3)和行为影响潜力(中位数2)上表现较低。配对比较显示CDE与G4E及G4I之间存在显著差异(校正后p值分别为<0.001和0.015)。Friedman检验确认模型间存在显著总体差异(p<0.0001)。
#### 3.2 混合效应有序逻辑回归结果
##### 3.2.1 信息可靠性
GME的比值比(OR)最高(1.41,95% CI: 0.64–3.09,p=0.389),但无统计学显著性;G4E、G3E和G4I的OR接近1,无显著差异。
##### 3.2.2 信息质量
G4I显著优于参考模型CDE(OR=1.76,95% CI: 1.06–2.93,p=0.030);G4E呈有利趋势但未显著(OR=1.55,p=0.0926);GME趋向较低(OR=0.51,p=0.0685)。
##### 3.2.3 医学适宜性
G4E显著更优(OR=1.86,95% CI: 1.04–3.33,p=0.036);G4I呈边界显著性(OR=1.75,p=0.0559);G3E和GME表现较弱。
##### 3.2.4 对疫苗犹豫的影响
G4E表现最有利但未显著(OR=1.73,p=0.0774);其他模型OR接近或低于1(G3E:0.93,G4I:0.87,GME:0.63),暗示对降低犹豫的影响力不确定。
##### 3.2.5 行为影响潜力
各模型差异不显著;G3E的OR最高(1.55,p=0.0825),GME最低(0.57,p=0.106)。
##### 3.2.6 总体评分
G4E显著优于参考模型(OR=2.17,95% CI: 1.20–3.92,p=0.010);G3E、G4I和GME的OR分别为1.32、1.51和1.58,均无显著性。
所有输出未发现直接造成身体伤害或明显偏袒特定制造商、人群的误导性内容。
### 讨论与结论总结
讨论部分指出,G4E在总体评分和医学适宜性上的优势反映了最新ChatGPT模型在架构、训练和对齐策略上的进步,从而提升了清晰度、连贯性和用户参与度。G4I在信息质量上表现突出,可能源于语言特定评价偏差,而非真实优势。语言差异分析表明,以英语为主要训练数据的LLMs(如G4E)在基于英语的评估中显著优于意大利语版本,提示语言适应性的不足是当前LLMs面临的关键挑战。GME因生成不稳定性(自我抑制)而性能受限,其评估结果需谨慎解读。此外,行为影响潜力和信息可靠性领域的高变异(四分位距达3)可能源于评价维度的主观性,但混合效应模型通过随机效应控制评分者变异后仍支持结果稳健性。从政策角度看,研究强调需在公共卫生沟通中建立标准化评估框架,对LLMs进行独立认证;从教育角度看,医疗人员和公众应接受批判性使用LLMs的训练。研究局限性包括:所用模型版本可能已过时、未标准化超参数(但模拟真实用户交互)、仅评估ChatGPT 4o的意大利语版本、采用零样本提示(限制交互代表性)、未进行正式样本量计算且部分效应估计置信区间较宽。
结论翻译:本研究首次对主要大型语言模型作为疫苗接种和预防医学信息传递工具进行了深入评估。总体而言,LLMs在提供准确、临床适宜且行为导向的疫苗相关指导方面表现出显著变异性。在所评估模型中,英语版GPT-4o(G4E)在影响健康行为和缓解疫苗犹豫等公共卫生沟通核心领域表现最强。Gemini 1.5(GME)的相对较弱表现以及意大利语版GPT-4o(G4I)的有效性降低,凸显了未来LLM开发需解决的关键挑战:提高模型间一致性、改善训练数据的多样性与包容性(尤其针对非英语语言),以及增强可信、共情且具有说服力的健康信息传递的细微沟通技能。未来研究应扩大LLMs评估范围、以医疗专业人员回应为基准进行对比,并考察普通用户与LLMs的真实交互。这些工作对于确定如何负责任地将这些快速演变的工具整合进公共卫生策略,以支持知情决策和促进疫苗接种及预防健康行为至关重要。