MULTI基准:基于真实中文考题构建的多模态理解评测平台与人类专家性能对比研究

【字体: 时间:2025年10月08日 来源:Science China-Information Sciences 7.6

编辑推荐:

  来自国内研究人员团队针对多模态大语言模型(MLLMs)与人类性能对比的评测空白,开发了源自真实考试题目的中文多模态数据集MULTI。该研究包含超过18,000道精选题目,涵盖图文理解、复杂推理和知识召回能力测试,并创新性提出MULTI-Elite硬样本子集和MULTI-Extend上下文学习测试模块。评测显示当前最佳模型Qwen2-VL-72B在MULTI和MULTI-Elite上分别达到76.9%和53.1%准确率,较人类专家基线(86.1%/73.1%)仍有显著差距,为专家级AI发展提供了重要基准。

  
随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的迅猛发展,其与人类认知能力的对比成为关键科学问题。现有评测数据集多采用合成或过度简化任务,而部分模型甚至已超越人类专家基线。本研究推出MULTI——一个源自真实中文考试题目的多模态数据集,通过超过18,000道精心筛选的试题,以现实考试标准系统评估模型在图像-文本理解、复杂推理及知识召回等方面的能力。特别构建的MULTI-Elite包含500道高难度试题,MULTI-Extend则提供超过4,500条外部知识语境用于测试上下文学习能力。评估结果揭示MLLMs仍有巨大提升空间:Qwen2-VL-72B在25个被测模型中表现最佳,在MULTI和MULTI-Elite上分别达到76.9%和53.1%的准确率,但仍显著低于人类专家86.1%和73.1%的基线水平。该基准不仅为模型性能评估提供坚实平台,更为专家级人工智能的发展指明方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号