全球语言连通性数据集:跨国与国内多维度语言关系的构建与应用

【字体: 时间:2025年04月01日 来源:Scientific Data 5.8

编辑推荐:

  编辑推荐:本研究基于Ethnologue数据库的6,675种语言数据,构建了涵盖242个国家/地区的DICL数据集,包含COL/COR(官方语言)、CNL(母语)、CAL(习得语言)等11项双边指标,首次实现国际与国内语言连通性的统一测量。该数据集解决了传统语言数据覆盖不全、维度单一的问题,为文化传播、经济贸易等领域的量化研究提供了新工具,已被多项实证研究验证其有效性。

  在全球化背景下,语言作为文化载体和经济活动媒介的作用日益凸显,但现有语言数据集存在三大局限:一是多数仅关注国际层面的语言共性(如共同官方语言),忽视国内语言多样性;二是测量维度单一,难以区分母语、习得语言等不同层次的连通性;三是语言接近度指标缺乏系统性量化。这些问题严重制约了语言学、经济学等领域对语言影响的深入研究。

美国国际贸易委员会经济办公室的Tamara Gurevich团队联合法国巴黎第九大学等机构,基于Ethnologue第21版数据库,构建了全球首个同时涵盖国际与国内语言关系的DICL数据集。该研究创新性地开发了11项指标,包括2类官方语言指数(COL宽松定义/COR严格定义)、3类共同语言指数(CNL母语/CAL习得语言/CSL综合)、以及6类语言接近度指数(LPN/LPA/LPS基于完整语言树,BPN/BPA/BPS基于分支结构)。研究通过Python算法处理6,675种语言的谱系关系,量化了242个国家间的语言连通性,相关成果发表于《Scientific Data》。

关键技术方法包括:1)从Ethnologue提取语言树结构和各国语言使用数据;2)设计概率模型计算CNLij=∑(lki×lkj)等指标;3)开发语言接近度算法Pkh=bh/[0.5(bk+bh)];4)使用Pandas库进行大规模数据聚合。

研究结果方面:

  1. 数据覆盖性:相比传统数据集(如Melitz和Toubal仅195国),DICL覆盖242国,新增46国习得语言数据。
  2. 指标创新性:CAL指数首次量化非母语者的语言纽带,CSL指数整合母语与习得语言,LPS指数揭示语言家族演化关系。
  3. 实证验证:与GeoDist等数据集对比显示,COL与comlang_off相关性达0.72,CNL与MT 2014的cnl指数相关性0.69。
  4. 典型模式:卢森堡因多语人口在CAL(0.375)、CSL(0.780)指数中居首,而朝鲜因语言孤立在BPN(0.001)等指数中垫底。

结论与讨论指出,DICL数据集通过三大突破推动相关研究:1)首次实现国内语言多样性(如喀麦隆170种语言)与国际关系的统一测量;2)连续型指标(非二元变量)更精准捕捉语言关系的梯度差异;3)语言树算法为文化相似性研究提供新范式。已有研究证实,DICL指数在解释贸易流量、移民模式时,较传统数据具有更高统计显著性。未来可应用于语言政策评估、文化产业链分析等领域,但需注意46国习得语言数据缺失的局限性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号