
-
生物通官微
陪你抓住生命科技
跳动的脉搏
德国新闻文章地理定位数据集:基于LLM和SBERT的大规模语义分析与空间分布研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Scientific Data 5.8
编辑推荐:
本研究针对社会科学习中缺乏高质量地理标记文本数据的问题,通过处理CommonCrawl News数据集中的5000万篇德语新闻,结合LLAMA-3.1-8B-Instruct模型进行命名实体识别(NER)和SBERT语义嵌入,构建了包含70%地理定位文章的数据库。该研究创新性地将地理编码与语义搜索相结合,为区域政策评估、社会动态监测提供了新型分析工具,相关数据已开源。
在数字化浪潮席卷全球的当下,新闻数据已成为洞察社会动态的"显微镜",但如何从海量文本中提取地理信息始终是学界难题。德国吉森大学地理系Lukas Kriesch团队在《Scientific Data》发表的研究,犹如为杂乱无章的新闻海洋绘制了精确的"航海图"。该团队开发的创新方法,不仅让计算机能自动识别新闻中的地理位置,还能理解文字背后的深层含义,为社会科学研究开辟了新航道。
研究团队采用多阶段处理流程:首先从CommonCrawl News数据集获取35TiB原始数据,通过Trafilatura库提取正文并过滤非德语内容;随后运用Meta的LLAMA-3.1-8B-Instruct模型生成训练数据,训练出F1-score达93.87%的定制化spaCy NER模型;最后通过Nominatim API将识别出的地点链接到OpenStreetMap坐标,并采用"deepset-mxbai-embed-de-large-v1"模型生成文本嵌入向量。
数据采集与预处理
团队处理了2016-2023年间3,211个新闻源的49,374,999篇文章,平均长度410词。通过七项质量启发式标准(如剔除含JavaScript代码或非字母词占比>10%的文章),构建出迄今最全面的德语新闻语料库。

地理编码验证
通过NUTS-3区域人口与新闻数量的回归分析(R2=0.507),证实地理编码准确性。可视化分析显示,柏林、汉堡等大城市出现频率最高,但所有400个NUTS3区域均有覆盖。

语义搜索应用
以"热泵"为例的案例研究表明,Float32精度的向量数据库检索结果与Google Trends趋势高度相关(Pearson r=0.84),验证了方法的可靠性。三种量化方案中,Int8精度在保持93.55%准确率同时,将存储需求降低至60GB。
这项研究的意义在于:其一,建立了首个包含地理坐标和语义向量的德语新闻大数据库;其二,开发的NER-地理编码-语义搜索技术链可推广至其他语种;其三,为研究区域创新差异(如Kriesch等人先前开展的生物经济研究)提供了新工具。正如作者强调,这种"由外而内"(outside-in)的分析视角,能捕捉传统经济指标忽略的地域文化叙事,对理解能源转型等政策的地方接受度具有独特价值。数据集已通过吉森大学平台开放获取,包含SQLite关系数据库和Usearch向量数据库两种形式,支持后续研究的灵活拓展。
生物通微信公众号
知名企业招聘