
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于维基百科的大规模科学数据标注:Wiki-Quantities与Wiki-Measurements数据集的构建与应用
【字体: 大 中 小 】 时间:2025年07月23日 来源:Scientific Data 5.8
编辑推荐:
为解决自然语言处理中定量数据识别与上下文提取的难题,德国于利希研究中心与亚琛工业大学团队构建了基于维基百科的Wiki-Quantities(120万标注量)和Wiki-Measurements(3.8万标注量)数据集。通过{{convert}}模板与Wikidata对齐实现自动化标注,验证准确率达84-94%,为工程与自然科学领域的测量提取任务提供了首个大规模基准。
在科研文献爆炸式增长的时代,科学家们面临着一个严峻挑战:如何从海量文本中快速准确地提取关键定量数据?特别是在工程和自然科学领域,温度、长度、质量等测量数据往往蕴含着重要发现线索。然而现有技术存在明显短板——传统命名实体识别系统擅长捕捉"人名""地名"等离散概念,却对"37.5℃"这类数值与上下文关系束手无策;更棘手的是,像"新冠病毒直径约100纳米"这样的表述,需要同时识别数值、单位、被测实体(病毒)和属性(直径)四个要素的复杂关联。
德国于利希研究中心(Forschungszentrum Jülich)与亚琛工业大学(RWTH Aachen University)的研究团队在《Scientific Data》发表突破性解决方案。他们巧妙利用维基百科的标准化编辑特征,构建了两个互补数据集:Wiki-Quantities通过解析1.2万篇文章中的{{convert}}单位转换模板,实现数量短语的精准标注;Wiki-Measurements则创新性地将Wikidata知识图谱的380万条定量陈述与对应维基页面文本对齐,捕获完整的"实体-属性-数值-单位"四元组。这种双管齐下的策略既保证了数据规模(较现有基准扩大1000倍),又通过模板调用与知识图谱的双重验证确保质量,人工抽查显示准确率最高达94%。
关键技术包括:1)开发Lua模板解析器提取{{convert}}模板的输入/输出单位变体;2)构建SPARQL查询从Wikidata获取带边界值的定量陈述;3)基于依存句法与词形还原的跨模态对齐算法,支持±3%数值容差与103倍率内的单位转换;4)通过编辑距离去重和单位频次平衡(uthr=300)优化数据分布。
研究结果呈现三大发现:
数量识别基准
在561,393个句子中标注779,943个数量短语,覆盖米(9.68%)、千米(9.53%)、英尺(9.05%)等236种单位。创新性地保留"60-62.5 m(197-205 ft)"等复合表达式,较Grobid-quantities数据集扩展8类数量修饰词(如"约""至少")。
上下文提取体系
38,738个标注实例揭示测量表述的多样性:84%属性显式出现(如"高度"),16%需推理(如"Eiffel Tower, 330 m"隐含高度属性)。时空限定词(P585时间点、P276位置)等9类修饰语的识别F1值达76.3%,解决"2020年东京平均气温"这类复杂表述的解析难题。
跨语言验证
对比英语与简易英语维基百科,发现模板调用一致性达98.7%,但Simple English版本中单位简化现象显著(如"miles"替代"nautical miles"),为跨语言模型训练提供天然噪声数据。
这项研究的意义远超预期:首先,发布的预处理版本直接支持IOB序列标注和SQuAD式问答,已用于训练RoBERTa46等模型;其次,方法论可推广至LaTeX文档的siunitx命令解析,为arXiv54等学术平台的结构化提取铺路;最重要的是,首次证明众包知识库能产出研究级标注数据,这对缓解NLP领域标注资源匮乏具有范式革新意义。正如Jan Gopfert等作者强调,这种"模板+知识图谱"的双引擎标注框架,为时间、超关系等复杂属性的提取开辟了新航道。
生物通微信公众号
知名企业招聘