UQuAD+:乌尔都语机器阅读理解的基准数据集

《ACM Transactions on Asian and Low-Resource Language Information Processing》:UQuAD+: Benchmark Dataset for Urdu Machine Reading Comprehension

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  乌尔都语MRC数据集构建与新型评估方法研究,包含20,000个多领域问答对,采用众包+专家标注确保质量,涵盖可/不可回答问题及多种答案形式,提出衡量语义等效的Semantic Match指标,实验显示现有模型表现极低(0.82%),为低资源语言研究提供新框架。

  

摘要

机器阅读理解(Machine Reading Comprehension,MRC)是自然语言理解(Natural Language Understanding)中的关键任务,它使自动化系统能够基于文本输入回答问题。尽管在资源丰富的语言上MRC已经取得了显著进展,但由于语言特征的复杂性,资源匮乏的语言仍面临巨大挑战。本文提供了一个针对乌尔都语MRC的全面人工标注数据集,该数据集包含来自七个领域的1,540篇文章中的20,000对问答对。与以往基于翻译的数据集不同,这个数据集中的问答对是通过严格的人群众包和专家标注生成的。数据集涵盖了多种类型的题目,包括可回答和不可回答的问题,答案范围从单个单词到完整的句子,有效体现了乌尔都语在形态学和句法上的丰富性。为了解决传统评估指标(如精确匹配(Exact Match,EM)和F1分数)在评估乌尔都语答案时的局限性,我们提出了语义匹配(Semantic Match,SM)这一指标,用于衡量预测答案与真实答案之间的语义等价性。我们的评估结果表明,该数据集的复杂性较高,即使是最先进的模型也只能达到0.82%的SM准确率。该数据集和评估指标共同为推进乌尔都语MRC研究提供了一个坚实的框架,填补了数据集质量和评估方法方面的关键空白。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号