在多语言疫苗知识领域评估大型语言模型：一项基准研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Vaccines》：Evaluating large language models on multilingual vaccine knowledge: a benchmark study

【字体：大中小】 时间：2026年06月12日 来源：npj Vaccines 6.5

编辑推荐：

　　摘要大型语言模型（LLMs）越来越多地被临床医生和公众用于获取疫苗信息，但它们在不同语言和疫苗领域的信息准确性尚未得到充分评估。我们使用VaxEval这一多语言疫苗知识基准测试工具，对13个LLM进行了评估。该测试包含1886道与疫苗相关的问题，涵盖了14种疫苗（英语占71%，西

摘要

大型语言模型（LLMs）越来越多地被临床医生和公众用于获取疫苗信息，但它们在不同语言和疫苗领域的信息准确性尚未得到充分评估。我们使用VaxEval这一多语言疫苗知识基准测试工具，对13个LLM进行了评估。该测试包含1886道与疫苗相关的问题，涵盖了14种疫苗（英语占71%，西班牙语占13%，中文占16%）。所有问题都经过了质量控制，参考答案经过权威指导和同行评审来源的验证。模型在零样本（zero-shot）、少量样本（few-shot）以及思维链（chain-of-thought, CoT）提示下的表现进行了评估，其中“精确匹配”准确率定义为选择预先指定的参考选项。我们采用混合效应逻辑回归分析模型组（较新的旗舰模型与早期模型）、提示策略、语言和疫苗类型与答案正确性之间的关联。模型在英语、西班牙语和中文中的平均准确率分别为86.0%、83.7%和80.0%。旗舰模型的正确率高于早期版本（比值比OR 1.57；95%置信区间1.50–1.65；P < 0.001）。少量样本提示与更高的正确率相关（OR 1.17；P < 0.001），而思维链提示则与较低的正确率相关（OR 0.79；P < 0.001）。模型表现因疫苗类型和问题类别而异，这凸显了在使用LLM进行疫苗信息传播之前，需要进行严格评估、制定结构化规范并进行针对性改进的必要性。

联系信箱：

粤ICP备09063491号

摘要

热点排行