UQuAD+：乌尔都语机器阅读理解的基准数据集

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：UQuAD+: Benchmark Dataset for Urdu Machine Reading Comprehension

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　乌尔都语MRC数据集构建与新型评估方法研究，包含20,000个多领域问答对，采用众包+专家标注确保质量，涵盖可/不可回答问题及多种答案形式，提出衡量语义等效的Semantic Match指标，实验显示现有模型表现极低（0.82%），为低资源语言研究提供新框架。

摘要

机器阅读理解（Machine Reading Comprehension，MRC）是自然语言理解（Natural Language Understanding）中的关键任务，它使自动化系统能够基于文本输入回答问题。尽管在资源丰富的语言上MRC已经取得了显著进展，但由于语言特征的复杂性，资源匮乏的语言仍面临巨大挑战。本文提供了一个针对乌尔都语MRC的全面人工标注数据集，该数据集包含来自七个领域的1,540篇文章中的20,000对问答对。与以往基于翻译的数据集不同，这个数据集中的问答对是通过严格的人群众包和专家标注生成的。数据集涵盖了多种类型的题目，包括可回答和不可回答的问题，答案范围从单个单词到完整的句子，有效体现了乌尔都语在形态学和句法上的丰富性。为了解决传统评估指标（如精确匹配（Exact Match，EM）和F1分数）在评估乌尔都语答案时的局限性，我们提出了语义匹配（Semantic Match，SM）这一指标，用于衡量预测答案与真实答案之间的语义等价性。我们的评估结果表明，该数据集的复杂性较高，即使是最先进的模型也只能达到0.82%的SM准确率。该数据集和评估指标共同为推进乌尔都语MRC研究提供了一个坚实的框架，填补了数据集质量和评估方法方面的关键空白。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号