今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

在多语言疫苗知识领域评估大型语言模型:一项基准研究

《npj Vaccines》:Evaluating large language models on multilingual vaccine knowledge: a benchmark study

【字体: 大 中 小 】 时间:2026年06月12日 来源:npj Vaccines 6.5

编辑推荐:

  摘要大型语言模型(LLMs)越来越多地被临床医生和公众用于获取疫苗信息,但它们在不同语言和疫苗领域的信息准确性尚未得到充分评估。我们使用VaxEval这一多语言疫苗知识基准测试工具,对13个LLM进行了评估。该测试包含1886道与疫苗相关的问题,涵盖了14种疫苗(英语占71%,西

  

摘要

大型语言模型(LLMs)越来越多地被临床医生和公众用于获取疫苗信息,但它们在不同语言和疫苗领域的信息准确性尚未得到充分评估。我们使用VaxEval这一多语言疫苗知识基准测试工具,对13个LLM进行了评估。该测试包含1886道与疫苗相关的问题,涵盖了14种疫苗(英语占71%,西班牙语占13%,中文占16%)。所有问题都经过了质量控制,参考答案经过权威指导和同行评审来源的验证。模型在零样本(zero-shot)、少量样本(few-shot)以及思维链(chain-of-thought, CoT)提示下的表现进行了评估,其中“精确匹配”准确率定义为选择预先指定的参考选项。我们采用混合效应逻辑回归分析模型组(较新的旗舰模型与早期模型)、提示策略、语言和疫苗类型与答案正确性之间的关联。模型在英语、西班牙语和中文中的平均准确率分别为86.0%、83.7%和80.0%。旗舰模型的正确率高于早期版本(比值比OR 1.57;95%置信区间1.50–1.65;P < 0.001)。少量样本提示与更高的正确率相关(OR 1.17;P < 0.001),而思维链提示则与较低的正确率相关(OR 0.79;P < 0.001)。模型表现因疫苗类型和问题类别而异,这凸显了在使用LLM进行疫苗信息传播之前,需要进行严格评估、制定结构化规范并进行针对性改进的必要性。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:大型语言模型|VaxEval 基准|多语言评估|准确性差异|提示策略|群体疗效

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号