
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在多语言疫苗知识领域评估大型语言模型:一项基准研究
《npj Vaccines》:Evaluating large language models on multilingual vaccine knowledge: a benchmark study
【字体: 大 中 小 】 时间:2026年06月12日 来源:npj Vaccines 6.5
编辑推荐:
摘要大型语言模型(LLMs)越来越多地被临床医生和公众用于获取疫苗信息,但它们在不同语言和疫苗领域的信息准确性尚未得到充分评估。我们使用VaxEval这一多语言疫苗知识基准测试工具,对13个LLM进行了评估。该测试包含1886道与疫苗相关的问题,涵盖了14种疫苗(英语占71%,西
大型语言模型(LLMs)越来越多地被临床医生和公众用于获取疫苗信息,但它们在不同语言和疫苗领域的信息准确性尚未得到充分评估。我们使用VaxEval这一多语言疫苗知识基准测试工具,对13个LLM进行了评估。该测试包含1886道与疫苗相关的问题,涵盖了14种疫苗(英语占71%,西班牙语占13%,中文占16%)。所有问题都经过了质量控制,参考答案经过权威指导和同行评审来源的验证。模型在零样本(zero-shot)、少量样本(few-shot)以及思维链(chain-of-thought, CoT)提示下的表现进行了评估,其中“精确匹配”准确率定义为选择预先指定的参考选项。我们采用混合效应逻辑回归分析模型组(较新的旗舰模型与早期模型)、提示策略、语言和疫苗类型与答案正确性之间的关联。模型在英语、西班牙语和中文中的平均准确率分别为86.0%、83.7%和80.0%。旗舰模型的正确率高于早期版本(比值比OR 1.57;95%置信区间1.50–1.65;P < 0.001)。少量样本提示与更高的正确率相关(OR 1.17;P < 0.001),而思维链提示则与较低的正确率相关(OR 0.79;P < 0.001)。模型表现因疫苗类型和问题类别而异,这凸显了在使用LLM进行疫苗信息传播之前,需要进行严格评估、制定结构化规范并进行针对性改进的必要性。