基于维基百科的大规模科学数据标注：Wiki-Quantities与Wiki-Measurements数据集的构建与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月23日 来源：Scientific Data 5.8

编辑推荐：

　　为解决自然语言处理中定量数据识别与上下文提取的难题，德国于利希研究中心与亚琛工业大学团队构建了基于维基百科的Wiki-Quantities（120万标注量）和Wiki-Measurements（3.8万标注量）数据集。通过{{convert}}模板与Wikidata对齐实现自动化标注，验证准确率达84-94%，为工程与自然科学领域的测量提取任务提供了首个大规模基准。

在科研文献爆炸式增长的时代，科学家们面临着一个严峻挑战：如何从海量文本中快速准确地提取关键定量数据？特别是在工程和自然科学领域，温度、长度、质量等测量数据往往蕴含着重要发现线索。然而现有技术存在明显短板——传统命名实体识别系统擅长捕捉"人名""地名"等离散概念，却对"37.5℃"这类数值与上下文关系束手无策；更棘手的是，像"新冠病毒直径约100纳米"这样的表述，需要同时识别数值、单位、被测实体（病毒）和属性（直径）四个要素的复杂关联。

德国于利希研究中心（Forschungszentrum Jülich）与亚琛工业大学（RWTH Aachen University）的研究团队在《Scientific Data》发表突破性解决方案。他们巧妙利用维基百科的标准化编辑特征，构建了两个互补数据集：Wiki-Quantities通过解析1.2万篇文章中的{{convert}}单位转换模板，实现数量短语的精准标注；Wiki-Measurements则创新性地将Wikidata知识图谱的380万条定量陈述与对应维基页面文本对齐，捕获完整的"实体-属性-数值-单位"四元组。这种双管齐下的策略既保证了数据规模（较现有基准扩大1000倍），又通过模板调用与知识图谱的双重验证确保质量，人工抽查显示准确率最高达94%。

关键技术包括：1）开发Lua模板解析器提取{{convert}}模板的输入/输出单位变体；2）构建SPARQL查询从Wikidata获取带边界值的定量陈述；3）基于依存句法与词形还原的跨模态对齐算法，支持±3%数值容差与10³倍率内的单位转换；4）通过编辑距离去重和单位频次平衡（u_thr=300）优化数据分布。

研究结果呈现三大发现：
数量识别基准
在561,393个句子中标注779,943个数量短语，覆盖米（9.68%）、千米（9.53%）、英尺（9.05%）等236种单位。创新性地保留"60-62.5 m(197-205 ft)"等复合表达式，较Grobid-quantities数据集扩展8类数量修饰词（如"约""至少"）。

上下文提取体系
38,738个标注实例揭示测量表述的多样性：84%属性显式出现（如"高度"），16%需推理（如"Eiffel Tower, 330 m"隐含高度属性）。时空限定词（P585时间点、P276位置）等9类修饰语的识别F1值达76.3%，解决"2020年东京平均气温"这类复杂表述的解析难题。

跨语言验证
对比英语与简易英语维基百科，发现模板调用一致性达98.7%，但Simple English版本中单位简化现象显著（如"miles"替代"nautical miles"），为跨语言模型训练提供天然噪声数据。

这项研究的意义远超预期：首先，发布的预处理版本直接支持IOB序列标注和SQuAD式问答，已用于训练RoBERTa⁴⁶等模型；其次，方法论可推广至LaTeX文档的siunitx命令解析，为arXiv⁵⁴等学术平台的结构化提取铺路；最重要的是，首次证明众包知识库能产出研究级标注数据，这对缓解NLP领域标注资源匮乏具有范式革新意义。正如Jan Gopfert等作者强调，这种"模板+知识图谱"的双引擎标注框架，为时间、超关系等复杂属性的提取开辟了新航道。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号