
-
生物通官微
陪你抓住生命科技
跳动的脉搏
数字概念的组合本质:基于多语言数字词频的认知建模研究
【字体: 大 中 小 】 时间:2025年06月27日 来源:Cognition 2.8
编辑推荐:
本研究通过分析六种语言中数字词的使用频率,揭示了复杂数字概念如何通过简单概念的语法组合在思维语言(LoT)中形成。研究人员发现数字频率随数量级呈1/n2规律下降,且具有小素数分解的数字出现局部峰值。通过建立代数组合语法模型,成功预测了整体频率曲线和局部峰值,为认知科学中数字概念的组合性起源提供了量化证据。
数字作为人类认知的核心概念,其心理表征机制一直是认知科学的研究热点。尽管前人研究已发现数字词频随数量级呈1/n2下降的规律,并存在"整十数"的局部峰值现象,但对其认知机制的解释仍存在争议。传统观点将这种现象归因于环境需求概率或数学特性,却难以解释为何人类会自发产生大数字概念,以及为何特定数字(如24和36)比邻近数字更频繁出现。
为探究这一问题,研究人员利用Google n-grams数据库,系统分析了英语、法语、意大利语、德语、西班牙语和俄语中1-99数字词的使用频率。研究发现:1)跨语言数据均显示log频率与log数量级呈斜率约-2的线性关系;2)除整十数外,具有小素数分解(如23×3=24)的数字频率显著高于邻近数字;3)通过构建基于思维语言(Language of Thought, LoT)的代数组合模型,仅用三个基本操作(1、+、×)即可预测整体频率曲线。
研究采用两种建模策略:最短路径模型(仅考虑最优表达式)和累积模型(整合所有可能表达式)。两者均能解释1/n2规律和素数相关的局部峰值,但无法完全预测整十数的高频现象。通过引入近似使用参数(模拟人类在不确定时倾向使用整十数表达),模型拟合优度显著提升(r2=0.96)。特别值得注意的是,模型揭示24和36等数字的高频源于其可通过乘法捷径(如4×6)构建,而26和34则主要依赖低效的+1运算。
关键技术方法包括:1)从Google n-grams提取六种语言数字词频(1950-2000年数据);2)构建基于最小描述长度(MDL)的LoT模型,含加法/乘法操作成本参数;3)引入高斯加权的近似使用参数模拟整十数偏好;4)通过Nelder-Mead算法优化模型参数。
主要研究结果:
多语言词频特征:六种语言均显示高度一致的频率模式(r>0.97),验证了1/n2规律的普遍性。线性回归显示除log数量级外,被2、3、5整除性均为显著预测因子。
素数分解效应:具有小素数分解的数字(如24=23×3)频率显著高于邻近数字(如26=2×13),即使使用相同词汇成分(p<10-4)。
LoT模型预测:最优参数显示乘法成本显著低于加法(costmult<>add),解释了大数字可通过乘法"捷径"获得高频率。累积模型分析揭示24的优选表达式为4×6(而非23+1)。
近似使用修正:整十数的额外频率提升源于其在近似语境中的使用(如"about twenty"),通过引入κ参数(近似使用概率)和韦伯系数w=0.15,模型成功预测整十数峰值。
研究结论指出,数字频率模式反映了人类认知系统对概念组合的经济性优化:1)乘法操作提供构建大数字的认知捷径;2)近似使用整十数实现表达效率最大化。该发现为Fodor的思维语言假说提供了实证支持,表明数字概念通过递归组合基本操作形成。相较于传统"需求概率"理论,LoT框架首次统一解释了整体频率下降和局部峰值的认知机制。
这项研究对发展数学教育策略具有启示意义:强调乘法关系和素数分解的教学可能促进数字概念的灵活表征。未来研究可进一步验证模型预测的数字心理表征(如通过启动范式),并探索该框架在其他认知领域的适用性。论文发表于《Cognition》,为数字认知的组成性理论奠定了量化基础。
生物通微信公众号
知名企业招聘