基于维基百科的大规模科学数据标注:Wiki-Quantities与Wiki-Measurements数据集的构建与应用

【字体: 时间:2025年07月23日 来源:Scientific Data 5.8

编辑推荐:

  为解决自然语言处理中定量数据识别与上下文提取的难题,德国于利希研究中心与亚琛工业大学团队构建了基于维基百科的Wiki-Quantities(120万标注量)和Wiki-Measurements(3.8万标注量)数据集。通过{{convert}}模板与Wikidata对齐实现自动化标注,验证准确率达84-94%,为工程与自然科学领域的测量提取任务提供了首个大规模基准。

  

在科研文献爆炸式增长的时代,科学家们面临着一个严峻挑战:如何从海量文本中快速准确地提取关键定量数据?特别是在工程和自然科学领域,温度、长度、质量等测量数据往往蕴含着重要发现线索。然而现有技术存在明显短板——传统命名实体识别系统擅长捕捉"人名""地名"等离散概念,却对"37.5℃"这类数值与上下文关系束手无策;更棘手的是,像"新冠病毒直径约100纳米"这样的表述,需要同时识别数值、单位、被测实体(病毒)和属性(直径)四个要素的复杂关联。

德国于利希研究中心(Forschungszentrum Jülich)与亚琛工业大学(RWTH Aachen University)的研究团队在《Scientific Data》发表突破性解决方案。他们巧妙利用维基百科的标准化编辑特征,构建了两个互补数据集:Wiki-Quantities通过解析1.2万篇文章中的{{convert}}单位转换模板,实现数量短语的精准标注;Wiki-Measurements则创新性地将Wikidata知识图谱的380万条定量陈述与对应维基页面文本对齐,捕获完整的"实体-属性-数值-单位"四元组。这种双管齐下的策略既保证了数据规模(较现有基准扩大1000倍),又通过模板调用与知识图谱的双重验证确保质量,人工抽查显示准确率最高达94%。

关键技术包括:1)开发Lua模板解析器提取{{convert}}模板的输入/输出单位变体;2)构建SPARQL查询从Wikidata获取带边界值的定量陈述;3)基于依存句法与词形还原的跨模态对齐算法,支持±3%数值容差与103倍率内的单位转换;4)通过编辑距离去重和单位频次平衡(uthr=300)优化数据分布。

研究结果呈现三大发现:
数量识别基准
在561,393个句子中标注779,943个数量短语,覆盖米(9.68%)、千米(9.53%)、英尺(9.05%)等236种单位。创新性地保留"60-62.5 m(197-205 ft)"等复合表达式,较Grobid-quantities数据集扩展8类数量修饰词(如"约""至少")。

上下文提取体系
38,738个标注实例揭示测量表述的多样性:84%属性显式出现(如"高度"),16%需推理(如"Eiffel Tower, 330 m"隐含高度属性)。时空限定词(P585时间点、P276位置)等9类修饰语的识别F1值达76.3%,解决"2020年东京平均气温"这类复杂表述的解析难题。

跨语言验证
对比英语与简易英语维基百科,发现模板调用一致性达98.7%,但Simple English版本中单位简化现象显著(如"miles"替代"nautical miles"),为跨语言模型训练提供天然噪声数据。

这项研究的意义远超预期:首先,发布的预处理版本直接支持IOB序列标注和SQuAD式问答,已用于训练RoBERTa46等模型;其次,方法论可推广至LaTeX文档的siunitx命令解析,为arXiv54等学术平台的结构化提取铺路;最重要的是,首次证明众包知识库能产出研究级标注数据,这对缓解NLP领域标注资源匮乏具有范式革新意义。正如Jan Gopfert等作者强调,这种"模板+知识图谱"的双引擎标注框架,为时间、超关系等复杂属性的提取开辟了新航道。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号