西班牙语词汇生成数据集：基于结构化辅音提示的词汇创造力研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月12日 来源：Scientific Data 6.9

编辑推荐：

　　本研究通过设计结构化辅音提示任务，探究西班牙语母语者在时间压力下如何通过插入元音生成有效词汇。研究人员收集了480名参与者的13,231个词汇反应，构建了包含词频、反应时等指标的开放数据集（RESPONSE DATA.csv/USER DATA.csv）。该资源为研究词汇访问（lexical access）、音位结构偏好（phonotactic preferences）及辅音-元音功能分离（Consonant-Vowel Hypothesis）提供了实证基础，对理解语言生成中的认知约束机制具有重要意义。

语言学家们长期困惑于人类大脑如何从零散字母中快速构建有效词汇。想象你面对"STR"三个辅音，需在20秒内填入元音组成5-7个字母的英文单词——可能浮现"stair"或"store"等词汇。这种看似简单的任务背后，隐藏着语言认知的核心谜题：辅音和元音在词汇加工中是否扮演不同角色？西班牙语母语者又会展现出怎样的生成模式？

Centro de Investigación Nebrija en Cognición（CINC，西班牙内布里哈大学认知研究中心）的Jon Andoni Dunabeitia团队在《Scientific Data》发表的研究，通过精心设计的在线实验给出了答案。研究采用Gorilla Experiment Builder平台，向480名西班牙母语者呈现99组三辅音字符串（如MNT），要求他们在4分钟内生成包含这些辅音的有效词汇（如MENTA或MINUTO）。所有刺激材料均来自EsPal西班牙语数据库，通过自动化验证和人工抽检确保数据可靠性。

方法精要

研究通过Prolific平台招募参与者，采用时间限制任务收集数据。关键创新在于将传统词汇识别范式转为生成范式，利用Zipf词频量化产出词汇的常用度，结合反应时分析认知负荷。技术核心包括：1）基于EsPal数据库筛选99组高生成潜力的辅音串；2）Gorilla平台实现毫秒级反应时记录；3）双重验证机制（程序化规则+人工审核）确保数据质量。

结果发现

背景与摘要
提出"辅音锚定效应"（Consonant-Vowel Hypothesis），证实辅音在词汇生成中起结构支架作用。数据显示95.53%的响应符合西班牙语正字法规则，验证任务设计的有效性。
方法
参与者平均生成26.33个有效词汇（SD=11.44），词长集中在5.36字母（SD=0.15）。高频词（Zipf均值4.06）占比显著，反映认知系统优先提取常用词汇。

数据记录
RESPONSE DATA.csv包含12,640条有效响应，显示辅音位置灵活性（如MNT可生成MENTA或MINUTO）。USER DATA.csv揭示非二元性别参与者产出词汇的频次与二元性别无显著差异。
技术验证
每个辅音串平均引发12.52种不同词汇（SD=4.06），证实刺激材料能有效激发词汇多样性。反应时分布反映不同辅音组合的认知加工难度差异。

结论启示

该研究首次系统揭示西班牙语词汇生成中"辅音骨架-元音填充"的认知机制，为相对位置编码理论（relative position coding）提供生产性证据。发现高频词优先提取模式，支持Lexical Constraint Hypothesis关于辅音约束词汇搜索的假说。数据集开放共享特性使其成为研究语言创造力、发展性阅读障碍甚至AI语言模型的基准资源。正如作者强调，这项成果架起了词汇识别与生成研究的桥梁，为探索更多字母文字系统的认知共性开辟了新路径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号