
-
生物通官微
陪你抓住生命科技
跳动的脉搏
动态命名实体识别模型在区分推文中作者位置提及类型中的应用研究
【字体: 大 中 小 】 时间:2025年05月27日 来源:Geomatica
编辑推荐:
推荐 为解决推文中自然语言模糊性导致的地理位置实体识别难题,研究人员开发了动态命名实体识别(DNER)模型。该模型通过严格的语法规则和决策树框架,有效区分作者的当前位置(in-situ)和远程位置(remote)。实验表明,模型在原生应用数据上表现更佳,对公共卫生监测和灾害响应等空间分析任务具有重要价值。
论文解读
在数字化时代,社交媒体平台如Twitter已成为人们分享生活点滴的重要渠道。然而,用户在推文中提及的地理位置信息往往存在歧义,难以准确判断是作者当前所在地(in-situ location)还是远程提及的地点(remote location)。这种模糊性不仅影响了空间分析的准确性,还可能对灾害响应、公共卫生监测等关键领域造成误导。为解决这一问题,来自欧洲的研究团队开发了一种名为动态命名实体识别(Dynamic Named Entity Recognition, DNER)的模型,旨在精准区分推文中的地理位置提及类型。
研究人员首先面临的是数据标注的挑战。由于推文的非结构化和语言的模糊性,传统的命名实体识别(NER)方法难以直接应用。为此,团队设计了一套严格的标注指南,并通过决策树框架确保标注的一致性。他们使用了三种标注方法——个体标注、小组标注和大型语言模型(LLM)标注,最终发现小组标注的效果最佳,达到了0.93的标注者间一致性(Inter-Annotator Agreement, IAA)。
在模型训练阶段,研究团队使用了来自Twitter的2800条推文数据,其中包含地理位置提及的推文被分为in-situ、remote和unclear三类。通过SpaCy库中的Transformer架构,团队训练了名为en_dner_tweets_v1的模型。该模型在测试集上的F1得分分别为60.39(in-situ)和60.84(remote),尽管对unclear类别的表现较低(31.07),但整体效果仍显示出其在区分地理位置提及类型上的潜力。
为验证模型的有效性,研究人员使用了地理编码技术,将提取的地理位置与推文的坐标标签进行比对。结果显示,原生应用(如Twitter for Android、iPhone和iPad)生成的推文中,in-situ位置的地理编码结果更接近实际位置,而Instagram等第三方应用的数据则存在较大偏差。这表明,模型在原生应用数据上的表现更为可靠。
研究结果表明,DNER模型在区分in-situ和remote位置方面具有一定的有效性,尤其是在原生应用数据上。这一发现对于需要精确地理位置信息的应用场景,如灾害响应和公共卫生监测,具有重要意义。然而,模型对unclear类别的处理能力仍有待提升,这提示未来的研究需进一步优化标注规则和模型架构。
此外,研究还指出,推文中的地理位置提及往往受到语言表达习惯和平台特性的影响。例如,Instagram等应用可能将地理位置标记为地点的中心位置,而非用户实际所在地。因此,在使用地理编码数据进行验证时,需谨慎考虑这些因素对结果的影响。
综上所述,DNER模型的开发为推文中地理位置信息的提取和分析提供了新的工具。尽管当前模型在某些方面仍有不足,但其在大规模社交媒体数据分析中的应用前景广阔。未来研究可结合更多上下文信息和先进的机器学习技术,进一步提升模型的准确性和鲁棒性,为相关领域的研究和实践提供更有力的支持。该论文发表于《Geomatica》,为地理信息科学和社交媒体分析领域的研究者提供了重要的参考。
生物通微信公众号
知名企业招聘