
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于强化学习的语言规则特异性研究:语义与句法加工的认知神经机制
【字体: 大 中 小 】 时间:2025年07月16日 来源:Biological Psychology 2.8
编辑推荐:
本研究通过强化学习(RL)框架,对比分析语言符号与非语言符号在语义和句法规则学习中的动态过程。研究发现语言语义加工需要更多认知资源(表现为反应时延长和β波段功率负向调节),而句法加工则利用固有结构线索(β波段功率正向调节),揭示了语言规则学习区别于符号系统的特异性神经机制。
在人类认知的复杂拼图中,语言规则学习始终是块引人入胜的拼图块。尽管已有研究表明强化学习(Reinforcement Learning, RL)能有效模拟非语言符号系统的规则学习,但语言特有的语义(semantic)和句法(syntactic)双重规则体系是否遵循相同机制?这个问题如同迷雾中的灯塔,指引着辽宁师范大学的研究团队开展探索。
现有研究存在明显空白:非语言符号(如几何图形)虽能模拟抽象规则,却缺乏语言特有的语境丰富性和结构复杂性。更关键的是,语义整合需要社会情境解读,而句法依赖内在结构规则——这两种加工可能涉及截然不同的神经计算过程。当预测误差(Prediction Error, PE)信号出现时,大脑究竟如何动态调整语义预期和句法树构建?这个问题尚未在统一的RL框架下得到解答。
辽宁师范大学的研究人员设计了一项巧妙的实验:让31名受试者同时学习人工语言(含伪词的句子)和符号序列(几何图形组合)的语义/句法规则,通过概率反转学习范式动态追踪学习过程。他们采用Rescorla-Wagner模型计算预期价值(Expected Value, EV)和绝对预测误差(absolute PE),同时记录脑电数据聚焦13-30Hz的β波段振荡——这个频段被认为能反映规则结构的长期巩固过程。
关键技术包括:1) 改进的概率反转学习任务,规则反转涉及语义/句法违规类型切换而非简单刺激-结果关联;2) 六参数RL模型(含语义/句法特异性学习率α和逆温度τ);3) 时频分析锁定句子呈现后500-800ms的β波段功率;4) 使用WAIC(Watanabe-Akaike Information Criterion)进行模型比较。
模型选择
通过WAIC值比较发现最优模型包含语义/句法双通路:语义规则学习率(αsem=0.42)显著低于句法(αsyn=0.61),且语言刺激的结局敏感度(sensilang)高于符号。这表明大脑采用差异化的学习策略处理两类规则。
神经振荡特征
β波段调制呈现"语言-符号分离"现象:语言语义加工中,β功率随abs_PE增加而降低(r=-0.33),反映概念整合的认知负荷;而句法加工却显示β功率正相关(r=0.28),提示结构线索的利用效率。符号刺激则完全相反——语义违规引发β增强(r=0.19),句法违规导致β抑制(r=-0.24)。
行为表现
反应时(RT)模式印证神经发现:语言语义违规的RT(843ms)比句法(762ms)长11%,且RT与EV的负相关更强(β=-0.47 vs -0.32)。符号任务中语义判断反而快于句法(ΔRT=+68ms),这种"反转效应"突显语言系统的加工特异性。
讨论部分揭示了更深刻的机制:语言语义加工依赖缓慢的、深思熟虑的过程,表现为高PE信号下β功率下降——这与前额叶-颞叶网络的语义统一功能吻合;而句法加工利用固有的层级结构,使β振荡能积极整合预测误差信号。相比之下,符号系统的语义规则更表层,句法规则反而需要额外计算资源。
该研究首次在RL框架下实证了"语言双通路假说":语义和句法加工分别对应不同的神经计算原则。这一发现不仅为语言学习障碍(如发展性失语症)的干预提供新靶点——针对语义缺陷需强化情境整合训练,句法障碍则应侧重结构预测训练;更重要的是,它挑战了传统RL理论的普适性,证明人脑会针对语言这种特殊信号进化出专属学习算法。正如作者在结论强调的:"当预测误差信号穿过语言系统的棱镜时,会被分解成语义和句法两束截然不同的光谱。"
论文的创新性体现在三个方面:方法上开创了"规则类型反转"范式,理论上构建了语言RL的双通路模型,应用上为基于β神经振荡的个性化语言康复提供了生物标志物。这些突破使该成果成为《Biological Psychology》本年度在语言认知领域的重要里程碑。
生物通微信公众号
知名企业招聘