
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于检索增强的跨度表征模型(RASpan)提升地名识别的语义表征与性能
【字体: 大 中 小 】 时间:2025年09月09日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文创新性地提出基于检索增强的跨度表征模型(RASpan),通过融合外部地理实体知识(GeoNames)与精准跨度表征技术,有效解决地名识别(Toponym Recognition)中语义模糊性、缩写变异等难题。模型采用检索式提示构建(prompt sequence)与地理实体预测任务,在GeoWebNews等三大数据集实现F1值94.28%-96.75%的SOTA性能,为地理信息检索(GIR)与应急响应提供新范式。
Highlight
本研究首次将跨度分类(Span Classification)与检索增强(Retrieval Augmentation)结合应用于地名识别任务,通过RASpan模型实现:
1)基于GeoNames的地理实体检索器构建提示序列(prompt sequence)
2)专用跨度表征模块捕捉地名语义完整性
3)地理实体预测任务减少噪声干扰
Toponym Recognition
地名识别是地理解析(geoparsing)的基础任务,现有方法可分为三类:
规则驱动法:依赖预定义语言学规则与地名库(gazetteer),但泛化性差
机器学习法:采用CRF等模型,受限于特征工程
深度学习法:如BiLSTM-CRF、GzaPNE等CNN-LSTM混合架构显著提升性能
Problem Formulation
给定输入句子X=[x1,...,xn],模型需识别所有地名实体E={ei}i=1|E|,其中ei=[xbie,...,xdie],bie和die分别表示实体起止位置索引。
Method
RASpan框架包含两大组件:
1)地名检索器:从GeoNames提取相关地理实体作为先验知识
2)地名识别器:
使用BERT编码提示序列
枚举所有可能跨度进行表征分类
通过辅助任务强化地理实体语义学习
Experiments
在GeoWebNews(94.28% F1)、GeoVirus(96.75% F1)、LGL(93.34% F1)数据集上,RASpan较基线模型绝对提升2.45%-6.72%,尤其对缩写(如"Vt."→"Vermont")和歧义(如"Washington")案例表现优异。
Conclusion
RASpan通过跨度表征与检索增强的协同机制,为地名识别任务建立了新范式。未来将探索多模态地理知识(如地图数据)的融合应用。
生物通微信公众号
知名企业招聘