语言结构的信息处理瓶颈:预测信息最小化如何塑造人类语言的系统性特征
《Nature Human Behaviour》:Linguistic structure from a bottleneck on sequential information processing
【字体:
大
中
小
】
时间:2025年11月25日
来源:Nature Human Behaviour 15.9
编辑推荐:
本研究针对人类语言为何呈现特定系统性结构(如词汇短语组合)这一根本问题,提出语言结构受限于序列信息处理的认知瓶颈,并通过预测信息(predictive information,即过剩熵E)这一统计复杂度指标进行解释。研究人员通过模拟证明最小化预测信息的编码会自然产生类似自然语言的局部系统性结构,并利用跨语言文本语料库在音系、形态、句法和词汇语义等多个层面验证了真实语言确实比反事实基线具有更低的预测信息。该研究建立了语言代数结构与信息论原理之间的桥梁,为理解语言结构受一般认知约束塑造提供了新视角。
为什么人类语言会呈现出如此精妙的系统性结构?当我们说"一只猫和一只狗"时,这个句子自然地分解为对应图像中不同部分的词汇,这种形式与意义之间的对应关系似乎天经地义。然而从逻辑上讲,语言完全可能采用其他组织方式——比如用一个单词"gol"同时表示猫头和狗头,或者将"一只猫"和"一只狗"的词汇交织排列而非简单拼接。更有甚者,每种意义都可以用一个不可分析的完整形式表达,就像霍夫曼编码那样最优但缺乏系统性。
这种特定的语言结构从何而来?加州大学欧文分校的Richard Futrell和萨尔兰大学的Michael Hahn在《Nature Human Behaviour》发表的研究给出了一个新颖的答案:语言的结构源于序列信息处理的一般性认知约束。研究人员基于三个基本观察:言语由一维离散符号序列组成;言语产生的难易度受符号序列可预测性影响;人类用于序列预测的认知资源有限。由此他们提出,语言的结构会最小化序列预测的复杂度,这一复杂度由称为预测信息的信息论量来度量。
预测信息(predictive information)是随机过程过去与未来之间的互信息I[Xpast:Xfuture],也称为过剩熵(excess entropy)E。直观上,它衡量任何预测器必须利用的关于序列过去的信息量来预测其未来。预测信息可以通过n-gram熵hn与渐近熵率h的差值求和来计算:E=∑n=1∞(hn-h)。当符号能够基于局部语境被准确预测时,预测信息较低。
为了验证这一理论,研究团队采用了多种关键技术方法:基于随机过程的预测信息计算模型、跨语言文本语料分析(包括61种语言的音位转录词汇表、5种语言的形态标注数据、12种语言的形容词-名词配对语料)、反事实基线生成技术(通过保持发音方式不变的声音重组、形式-意义映射置换等创建对比系统),以及基于语料库统计的特征分布估计(使用Universal Dependencies v2.8和Lancaster Sensorimotor Norms等资源)。
研究人员首先通过模拟展示,当编码最小化预测信息时,会自然产生类似自然语言的系统性结构。
在表达独立特征的系统中,考虑由三个加权硬币投掷结果组成的含义集合。自然系统性语言中,每个字符串都有对应单个硬币结果的连续"词汇",而整体性语言则无此结构。模拟发现,在所有明确的三元二进制语言中,预测信息仅在系统性语言中被最小化。系统性语言最小化预测信息的原因是所表达的语义特征相互独立,因此字符串中的字母间没有统计依赖性。
当源分布不能表达为完全独立特征时,更相关的特征最好以整体方式表达,缺乏系统性结构。这正是自然语言中单个词汇(更准确说是词素)所遵循的符号任意性原则。例如"cat"一词没有可识别部分系统对应其意义特征。模拟中,当第二个和第三个硬币结果相关时,随着互信息增加,最佳语言变为将相关硬币投掷M2和M3整体表达为一个"词"的语言。
在局部性研究中,研究人员考虑了一个包含100个含义的Zipfian分布,以及一个由两个长度为4的"词汇"组成形式的语言。通过计算所有可能重组语言的预测信息,发现保持"词汇"连续的语言具有最低预测信息。这是因为编码过程在词汇内字母间创建了相关性,当这些相关字母被其他词汇的字母分隔时,预测信息增加。
在层次结构模拟中,研究人员使用具有协方差结构的六个随机变量源分布,发现最小化预测信息的编码是那些关于源相关结构良好嵌套的编码,保持对应相关特征组的字母连续。这与自然语言句子通常具有由上下文无关语法生成的良嵌套层次结构一致。
研究提供了大量跨语言实证证据,表明语言的系统性结构在音系、形态、句法和词汇语义层面都能降低预测信息。
在音系学层面,比较61种语言音位转录词汇表与反事实替代方案(通过确定性重组词汇内音位同时保持发音方式),发现真实词汇表在所有测试语言中都比反事实变体具有更低的预测信息。
在形态学层面,分析五种语言中格、数、所有格和限定性等词缀的局部系统结构,发现真实形式比破坏这种结构的基线具有更低的预测信息。即使是在阿拉伯语中存在非拼接形态(如破碎复数)的情况下,其名词形式仍比大多数基线样本具有更低的预测信息。
在句法层面,比较12种语言中真实形容词-名词组合与不自然和非局部基线,发现真实形容词-名词对在所有测试语言中都比大多数基线具有更低的预测信息。
在词序研究中,研究人员通过预测信息最小化来解释名词短语中限定词(D)、数词(N)、形容词(A)和名词(n)的跨语言分布。预测信息驱动统计上相互预测的词汇彼此靠近。结果显示,预测信息较低的词序也是跨语言上更常见的词序。
在词汇语义层面,研究验证了相对不相关的意义成分被系统表达,而相对相关的成分被整体表达的预测。例如"cats"中,猫的所有语义特征(毛茸茸、哺乳动物等)在词素"cat"中整体表达,而数字特征分离到复数标记"-s"中。分析证实,语义规范特征彼此高度相关,而与数字性相对不相关。同样,动词与其宾语之间的跨词语义特征相关性弱于词语内相关性。
该研究强调了预测和记忆在人类认知中的基本作用,建立了人类语言代数结构与机器学习和神经科学中使用的信息论概念之间的联系。研究结果与基于资源理性效率的信息论人类语言模型日益增长的研究体一致。
对于大型语言模型,研究表明语言的结构使得下一个词符预测相对容易,通过最小化需要从先前词符提取的信息量来预测后续词符。神经网络序列架构难以学习缺乏信息局部性的语言,这表明语言模型成功正是因为自然语言结构使预测任务相对简单。
在机器学习方面,研究建立了人类语言结构与独立成分分析(ICA)思想之间的联系。人类语言减少预测信息,相当于对意义源分布执行广义序列ICA,将其分解为相对独立的组件组,这些组件被系统表达为词汇和短语,这些单元内的统计依赖性高于单元间。这解释了为什么ICA类目标产生直观解缠、组合或可解释的表征。
在神经科学层面,神经编码被描述为在信息论和生理约束下最大化信息吞吐量,包括对预测信息的显式约束。这些模型预测神经编码是去相关的:不同神经群体编码感觉输入的统计独立组件。研究表明语言遵循类似原则:它以时间上去相关的方式表达意义。
研究结果反映并形式化了关于人类语言的广泛直觉,首先表述为Behaghel定律:"心理上紧密相关的内容也在位置上靠近"。预测信息约束预测了信息局部性:当语言形式的元素相互预测时,它们应该彼此靠近。信息局部性包含了现有的直观局部性思想。
该研究的局限性包括假设语言是形式与意义之间的一对一映射;仅检查了孤立话语内的预测信息;预测信息相对于时间反转是对称的,因此无法解释语言的时间不对称特性;语言中确实存在非局部和非拼接结构。未来研究需要确定这些结构对预测信息的实际影响,以及可能解释它们的其他语言约束。
这项研究为理解语言结构受一般认知约束塑造提供了新视角,将语言的形式属性与信息处理效率联系起来,对语言演化、认知科学和人工智能领域都具有重要意义。通过预测信息最小化这一统一原理,研究人员成功解释了语言系统性的多个方面,包括局部性、层次结构和语义分解的自然性,为理解人类语言这一独特能力提供了深刻见解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号