印欧语系同源关系数据集(IE-CoR)：跨语言比较与谱系重建的新基准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Scientific Data 6.9

编辑推荐：

　　本研究团队构建了首个全面覆盖印欧语系13个主要分支的开放式同源词关系数据集(IE-CoR)，包含160种语言的170个核心词汇意义域，系统编码了25731个词项和4981个同源词集。通过创新性地设计水平传递事件专用数据结构，解决了传统数据集在借词处理上的方法论缺陷。该数据集遵循CLDF标准，为计算语言学研究和贝叶斯谱系分析提供了高一致性的基准数据，其覆盖广度和编码精度显著超越前人工作，对解决印欧语系起源与演化争议具有重要价值。

在语言演化研究领域，印欧语系作为世界上使用人口最多的语系，其起源时间和分化过程长期存在争议。传统研究方法面临两大困境：现有同源词数据集覆盖不全，仅包含部分语支且编码不一致；借词处理方式简单化，导致水平传递信号与垂直继承信号混淆。这些问题直接影响了贝叶斯谱系分析结果的可靠性，使得不同研究团队对印欧语系起源时间估算存在千年级差异。

为解决这些方法论瓶颈，由Cormac Anderson领衔的国际团队在《Scientific Data》发表了印欧语系同源关系数据集(IE-CoR)。这项研究汇集89位语言学家组成专家联盟，历时多年构建了包含160种语言、170个核心语义参数的标准化数据集。创新性地设计了专门处理借词事件的数据结构，通过"借词事件同源集"概念准确捕捉水平传递后的垂直继承关系。数据集严格遵循跨语言数据格式(CLDF)标准，确保与其它语言学资源的互操作性。

关键技术方法包括：1) 优化语义参数选择，从235个候选概念中筛选出170个符合6项优化标准的核心词汇；2) 建立严格的词项确定协议，将同义项容忍度控制在4%以下；3) 开发新型借词编码结构，区分单次借词事件形成的"借词同源集"和多次平行借入形成的"平行借词集"；4) 采用BIPA音标系统实现跨语言语音表征标准化；5) 通过专家共识机制确保历史语言词项和同源判定的准确性。

语言样本设计体现全面性与平衡性

研究团队精心选择了涵盖印欧语系全部13个主要分支的160种语言，包括52种历史变体。通过设置最小4%的差异阈值避免过度采样，同时增加对努里斯坦语等较少研究语言的覆盖。时间校准数据采用正态分布表示，为贝叶斯分析提供可靠参数。

语义参数优化解决数据一致性问题

通过6项优化标准从235个候选概念中筛选出170个核心语义参数：1) 文化普适性；2) 词项确定一致性；3) 同源判定可行性；4) 避免平行衍生；5) 低借词率；6) 同源集变异平衡。每个参数配备详细定义和示例语境，如"FIRE"明确排除"wildfire"等特定子类词汇。

创新编码结构处理语言接触现象

突破传统布尔标记法，设计专用数据结构处理借词：1) 单次借入形成的"借词事件同源集"(如布立吞语中的拉丁语piscis借词)；2) 多次独立借入形成的"平行借词集"(如波斯语sekār在印度次大陆的平行借入)。这种结构可准确反映借入后的垂直继承轨迹。

数据质量控制与验证

实施多层次验证机制：1) 专家交叉核验历史语言词项；2) 严格参照LIV、NIL等权威语源词典；3) 音标转录符合BIPA标准；4) 统计监控确保无未映射词项；5) 通过三角距离矩阵验证语言相似度。

该研究构建的IE-CoR数据集在方法论上有三大突破：首次实现全语系均衡覆盖，解决采样偏差问题；创新借词处理结构，提升水平传递事件编码精度；优化语义参数定义，显著降低同义项干扰。应用该数据集的贝叶斯分析显示，其结果对模型假设变化的敏感性显著低于前人数据集，分支时长估算更符合历史记载。

作为首个遵循CLDF标准的印欧语系同源词资源，IE-CoR不仅为语言谱系研究提供新基准，其创新数据结构更为其他语系的类似研究树立范本。数据集通过专用网络应用提供交互式探索功能，所有版本在Zenodo平台永久存档，确保研究可重复性。这项成果将有力推动计算语言学和历史语言学的方法论革新，为解决印欧语系起源等重大争议问题提供可靠数据基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号