综述：时间解耦的语音处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

综述：时间解耦的语音处理

【字体：大中小】 时间：2025年06月27日 来源：TRENDS IN Cognitive Sciences 16.7

编辑推荐：

　　这篇综述挑战了传统语音处理理论，提出听觉（auditory）和词汇（lexical）表征具有持久性而非快速衰减，揭示了非增量式（non-incremental）词汇识别的可能性。研究颠覆了时间耦合（temporal coupling）经典框架，为语音处理模型（speech processing models）的重构提供了实验依据。

Highlights
传统语音处理理论认为词汇识别（word recognition）与时间信号严格耦合：词汇项（lexical items）会随语音输入即时激活并增量更新（incremental updating），旧信息快速衰减为新输入腾出空间，且内部表征具有时间顺序性。然而新研究发现，低级听觉（low-level auditory）和高级词汇表征（higher-level lexical representations）能长期保留，记忆缓冲（memory buffers）可能阻断增量处理，词汇并非严格按时间排序，现实中听者常采用非增量（non-incremental）识别模式。这些发现对现有计算模型的评估产生深远影响。

Abstract
语音处理的精确性依赖于听者将时序输入映射为词汇的能力。经典理论框架强调语音处理与时间信号的紧密耦合（tightly coupled），但最新证据表明：听觉和词汇表征具有持久性（retained over long durations），词汇访问（lexical access）可被延迟，且时间结构（temporal structure）并非刚性存在。这些现象迫使学界重新审视词汇识别的理论基础。

研究显示，人类听觉系统可能通过封装记忆缓冲（encapsulated memory buffers）保存语音特征，而非传统认为的"快速擦除"机制。在嘈杂环境或复杂语法结构中，听者会主动延迟词汇决策，这与增量处理（incremental processing）的核心假设直接矛盾。更值得注意的是，fMRI研究证实初级听觉皮层（primary auditory cortex）对语音特征的神经表征可持续数分钟，彻底颠覆了"知觉衰减（perceptual decay）"的经典模型。

词汇表征（lexical representations）的时间弹性（temporal flexibility）是另一重大发现。跨语言实验证明，听者能基于语义上下文（semantic context）重组词汇时间顺序，这种"时间解耦（temporal decoupling）"现象在声调语言（tone languages）中尤为显著。这些发现暗示语音处理系统可能采用混合架构（hybrid architecture），既包含实时处理模块，也具备延迟整合机制。

该综述系统论证了重构语音处理理论的必要性，指出未来模型需整合神经振荡（neural oscillations）与记忆系统的最新发现。特别强调时间预测（temporal prediction）与记忆缓冲的交互作用可能是下一代计算模型（computational models）的关键突破点。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号