基于检索增强的跨度表征模型(RASpan)提升地名识别的语义表征与性能

【字体: 时间:2025年09月09日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文创新性地提出基于检索增强的跨度表征模型(RASpan),通过融合外部地理实体知识(GeoNames)与精准跨度表征技术,有效解决地名识别(Toponym Recognition)中语义模糊性、缩写变异等难题。模型采用检索式提示构建(prompt sequence)与地理实体预测任务,在GeoWebNews等三大数据集实现F1值94.28%-96.75%的SOTA性能,为地理信息检索(GIR)与应急响应提供新范式。

  

Highlight

本研究首次将跨度分类(Span Classification)与检索增强(Retrieval Augmentation)结合应用于地名识别任务,通过RASpan模型实现:

1)基于GeoNames的地理实体检索器构建提示序列(prompt sequence)

2)专用跨度表征模块捕捉地名语义完整性

3)地理实体预测任务减少噪声干扰

Toponym Recognition

地名识别是地理解析(geoparsing)的基础任务,现有方法可分为三类:

  • 规则驱动法:依赖预定义语言学规则与地名库(gazetteer),但泛化性差

  • 机器学习法:采用CRF等模型,受限于特征工程

  • 深度学习法:如BiLSTM-CRF、GzaPNE等CNN-LSTM混合架构显著提升性能

Problem Formulation

给定输入句子X=[x1,...,xn],模型需识别所有地名实体E={ei}i=1|E|,其中ei=[xbie,...,xdie],bie和die分别表示实体起止位置索引。

Method

RASpan框架包含两大组件:

1)地名检索器:从GeoNames提取相关地理实体作为先验知识

2)地名识别器

  • 使用BERT编码提示序列

  • 枚举所有可能跨度进行表征分类

  • 通过辅助任务强化地理实体语义学习

Experiments

在GeoWebNews(94.28% F1)、GeoVirus(96.75% F1)、LGL(93.34% F1)数据集上,RASpan较基线模型绝对提升2.45%-6.72%,尤其对缩写(如"Vt."→"Vermont")和歧义(如"Washington")案例表现优异。

Conclusion

RASpan通过跨度表征与检索增强的协同机制,为地名识别任务建立了新范式。未来将探索多模态地理知识(如地图数据)的融合应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号