综述:皮质言语处理的神经振荡模型

【字体: 时间:2025年10月11日 来源:Neural Networks 6.3

编辑推荐:

  本综述系统评述了神经振荡在言语感知中的计算模型,涵盖从早期听觉处理到高级认知阶段。文章聚焦于利用γ、θ和δ等节律性脑活动编码音素、将言语分割为音节和词汇,并整合语言元素以推断意义的模型,分析了其生物学合理性及在实时言语处理中的潜在应用。这些模型为理解大脑高效处理连续言语信号的神经计算原理提供了重要见解,并为改进人工语音识别系统指明了方向。

  
言语感知是人类大脑的一项非凡能力,涉及将连续的声学信号迅速解析为有意义的语言单元。这篇综述深入探讨了利用神经振荡(如γ、θ和δ节律)来解释这一过程的计算模型,为理解大脑如何实现高效的实时言语处理提供了框架。
Gamma节律用于音素处理
γ波段神经振荡(30–80 Hz)在初级听觉皮层(pAC)的音素水平处理中频繁出现。综述分析了五种代表性模型,探讨γ活动是神经计算的组成部分还是信息处理的标记。
  • Hopfield-Brody(HB)模型:该模型使用尖峰神经元网络,通过特征事件触发的衰减突触电流的汇聚,实现时空模式的识别。当输入模式重现时,神经元群发生短暂的同步化,产生γ频率的爆发,作为识别信号。该模型对时间扭曲(如语速变化)具有鲁棒性。
  • 弱耦合振荡器瞬态同步(WCO-TS)模型:此模型在HB模型基础上,使用更为抽象的弱耦合相位振荡器来描述识别过程。它通过振荡器的相位同步来表征识别事件,并能正向模拟脑电图(ECoG)中观察到的γ反应。
  • 三角架(Tripod)网络模型:该模型强调树突计算的作用,神经元通过NMDA受体激活产生持久的树突平台电位,作为短时记忆痕迹来学习音素-词汇序列的关联。模型中的γ活动被视为序列处理的副产品,而非驱动机制。
  • 模板匹配电路(TMC)模型:该模型假设存在外部的γ节律,并将其作为时序支架。神经元在γ振荡的亚阈值调制下放电,其相对相位携带信息,下游的巧合检测器神经元通过识别特定的同步放电模式来编码音素。
  • 时间频率匹配(TFM)模型与TEMPO蓝图:TFM模型在PING(锥体神经元-中间神经元γ)网络基础上,引入了由刺激起始点触发的γ重置机制,从而将连续信号分割成块进行处理。TEMPO则进一步提出了一个概念框架,将θ节律(用于音节分割)和γ节律(用于音素编码)协同工作的层级振荡机制。
这些模型在γ节律的作用(是使用还是解释)、时序编码方案(衰减痕迹、相位编码、树突平台电位)以及生物学合理性方面各有侧重,反映了该领域研究视角的多样性。
Theta节律用于音节分割
言语在音节层面具有内在节律性(~3-8 Hz),与大脑的θ节律范围吻合。研究表明,听觉皮层活动会与言语包络在θ频率上发生夹带,这种夹带对言语清晰度至关重要。
  • 运动预测起始(OMP)模型:该模型强调运动系统在时间预测中的作用。它认为运动皮层内部模拟言语产生的节律,并将预测性时间信号发送到听觉皮层。这种听觉-运动相位耦合存在个体差异,高同步者的言语感知在噪音环境下表现更佳。
  • 自适应频率振荡器(AFO)模型:AFO模型提出,时间预测源于内生振荡先验和刺激驱动校正的结合。模型中的振荡器频率能动态适应输入刺激的平均周期,在贝叶斯框架下整合绝对计时和相对计时策略,从而灵活地锁相到准节律性的言语输入上。
  • MS细胞模型:从生物物理细节出发,该模型展示了单个规则放电(RS)锥体神经元中,m电流和超慢钾电流等内在离子通道的协同作用,能使神经元在一个很宽的频率范围内锁相到言语包络。这种细胞水平的灵活性为θ节律的夹带提供了基础。
这三个模型分别从自上而下的运动控制、振荡器的连续频率适应和局部膜电流特性三个不同层面,解释了θ节律如何灵活地跟踪言语的准节律性。
Theta-Gamma编码作为音素/音节解析的统一框架
将θ和γ振荡结合起来,为音节层级的言语解析和音素层级的编码提供了更全面的框架。
  • PING-PINTH模型:这是首个在生物物理细节上实现θ和γ节律耦合的模型。PINTH(锥体神经元-中间神经元θ)网络负责检测音节边界并产生θ振荡,PING网络则在θ周期的门控下对音素信息进行编码。两个网络通过锥体神经元之间的兴奋性投射实现交叉频率耦合(相位-振幅耦合,PAC)。该模型成功实现了对真实语音的音节边界检测和音素编码,并能处理时间压缩的语音。
讨论与展望
计算模型在理解从外周听觉系统到高级认知阶段的听觉处理中发挥了重要作用。γ节律与音素编码、θ节律与音节分割、δ节律与词汇/短语整合的关联,得到了越来越多模型和实验证据的支持。
现有的模型在生物合理性、计算效率和功能范围之间做出了不同的权衡。例如,HB和TMC模型基于尖峰神经元但未包含学习机制;WCO-TS模型数学优雅但生物物理基础较弱;Tripod网络生物物理细节丰富但可扩展性受限;PING-PINTH模型实现了θ-γ耦合但其音节边界检测模块的生物学合理性有待改进。
未来的研究方向包括:整合δ节律和β节律以解释自上而下的语境信息对言语处理的调节作用;将振荡机制嵌入到预测编码等理论框架中;为模型引入学习规则,使其能够从数据中习得言语表征;以及克服计算复杂性,使大规模、生物合理的模拟成为可能。
尽管面临挑战,这些神经振荡模型不仅增进了我们对言语感知神经基础的理解,也为开发更强大、更适应现实条件的语音识别系统提供了启发。生物学原理与人工智能的进一步融合,将为言语感知研究及其应用带来新的曙光。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号