综述：自闭症谱系障碍中音乐与语言的时间预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月18日 来源：Annals of the New York Academy of Sciences 4.8

编辑推荐：

　　本综述深入探讨了自闭症谱系障碍（ASD）个体在音乐和语言处理中共享的时间预测机制。文章从预测编码理论（Predictive Coding）框架出发，系统回顾了ASD患者在时间信息处理、预测形成与更新方面的非典型性，及其对社交互动（如对话协调与音乐协同）的影响。作者强调了跨领域研究（如节奏训练对社交沟通的潜在干预价值）的重要性，为理解ASD的认知基础及开发新型疗法提供了重要视角。

1 Theoretical Framework of Autism Spectrum Disorder

自闭症谱系障碍（Autism Spectrum Disorder, ASD）是一种神经发育状况，以社交沟通困难和受限重复的行为模式为核心特征。其患病率约占总人口的1%，通常在发育早期显现并显著影响日常功能。除了主要症状，ASD个体还常伴有运动协调困难、注意力挑战、感觉处理异常和焦虑障碍等共病。

ASD的理论框架经历了从社会认知（如心理理论缺陷、社会动机理论）到非社会因素（如执行功能缺陷、弱中央统合、增强知觉功能、慢速处理理论）的演变。然而，这些理论往往未能提供对ASD症状的统一解释。

预测编码理论（Predictive Coding Theory）将大脑视为一个推理引擎，持续生成内部模型以预测感觉输入，并通过不断更新来最小化预测误差。应用于ASD时，该理论提出预测形成或更新的非典型性可能是核心问题，具体表现为两种竞争性假说：高波动性假说（hypervolatility hypothesis）认为ASD个体对预测误差赋予过高权重，导致感知世界不稳定；而慢更新假说（slow updating hypothesis）则认为内部模型更新速度较慢，导致持续预测误差和僵化行为。

这些预测困难可能影响感觉运动同步和人际时间协调，进而导致社交和沟通挑战。这表明类似的困难可能影响对话或音乐互动，改变其流程、时间和相互协调。

2 Predictive Coding in Conversational and Musical Interactions

2.1 Predictive Coding in Conversational Interactions

对话互动是一个动态互惠过程，需要交谈者之间的持续协调。根据预测编码观点，成功对话依赖于预测伴侣说话内容和时间的能力。话轮转换不是反应性的，而是预期性的，参与者通常在伴侣说话时就开始规划回应。

这种能力依赖于精细调整的机制，使个体能够基于韵律、语义、句法和语用线索预测话轮结束时间和内容，从而实现快速且情境适当的回应。我们会在对话者说出语言信息之前就不断预激活这些信息，这种预激活在眼动研究中得到证实，并依赖于语义和句法结构。"花园路径句"（Garden path sentences）很好地说明了这些预测如何甚至会将听者引向错误解释。

有效沟通还涉及多个语言表征层面的对齐，包括词汇、句法、语义和韵律层面。交互对齐假说（interactive alignment hypothesis）支持对话伙伴会趋同于共享心理表征的观点，这反过来减少了处理负荷并增强了相互预测。对齐不仅仅是模仿，而是对话互动中涌现的特性，优化了沟通效率并支持快速自适应响应。

这些行为和语言形式的对齐越来越与其神经关联相联系，在沟通期间观察到交谈者之间相似的激活模式。此外，对话中的成功协调似乎会诱导上调的神经活动并涉及时间对齐的大脑活动，支持动态、预测性信息交换的观点。

这些发现共同表明对话是一个多层次的预测过程：从预测话轮和语义内容到语音模式和神经动态的夹带。理解预测编码如何支配这些过程揭示了人类沟通的神经认知架构，并将对话定位为研究更广泛人际协调的丰富模型系统。

2.2 Predictive Coding in Musical Processing and Musical Interactions

音乐是一种结构化且动态的现象，以复杂的、社会嵌入的方式调动大脑的预测能力。与言语和语言类似，预测编码解释了音乐感知和产生，大脑不断更新模型以预测感觉输入。这个框架在理解听众如何预测和解释音乐结构、节奏和和声方面特别有影响力。

近期研究阐述了预测编码如何在多个层次上支撑音乐处理。Vuust等人提出音乐感知涉及自上而下期望和自下而上感觉信号的相互作用，预测误差驱动学习。类似地，Koelsch等人强调音乐结构的层次性质如何映射到预测处理的神经机制上，表明听众使用先验知识在不同时间尺度上预测未来音乐事件。

当我们听音乐时，我们不断预测接下来会发生什么（在旋律、节奏、和声等方面）。音乐让我们测试和修正这些预测（音乐的认知提供，epistemic offering），伴随着不确定性和解决的奖励循环。这个框架也被用来解释"律动感"（groove），其中预测可能通过神经活动的听觉-运动耦合由背侧通路介导。

预测编码框架也已扩展到音乐互动领域，如联合表演或即兴创作。在这些情境中，成功的互动依赖于共享的预测模型和目标。Keller等人认为表演者通过相互预测和适应实现同步。Clayton等人回应了这一观点，提出节奏对齐反映了感觉运动耦合和对合作表演者意图的预测。Wiltshire和Fairhurst的工作通过检查联合音乐任务中的预测对齐进一步支持了这一观点。

除了行为协调，神经科学研究揭示了音乐互动中预测编码的神经关联。特别是关于脑间同步的研究为联合音乐制作期间的共享神经动态提供了证据。总体而言，表演者之间的神经同步与协调质量和共享预测框架之间存在正相关关系。

这些发现共同预示着预测编码理论与音乐神经科学和社会互动的有希望整合。理解预测机制不仅如何在个体内部运作，而且如何在个体之间在音乐制作过程中运作，为探索音乐体验的具身、社会和沟通维度开辟了新途径。

2.3 Links Between Conversational and Musical Interactions Under the Prism of Predictive Coding Theories

近期研究表明，音乐互动可以作为理解人类社交互动复杂性的模型，语言和音乐都依赖于共享的预测编码机制。在这两个领域，个体都预测他们的伴侣将表达什么（内容）以及何时发生（时间），从而实现对话中的流畅话轮转换和音乐表演中的协调。

时间对齐是一个关键的共同点。音乐和对话都涉及持续的时间预测，使用韵律、节奏和结构线索来预测话轮转换和同步响应。Jungers等人和Hadley与Pickering的研究表明，预测时间机制在两个领域类似地运作。此外，Wynn等人发现节奏感知能力更好的个体在对话中表现出更大的语速对齐，将节奏敏锐度与改善的对话质量联系起来。

关于音乐训练或节奏干预如何影响对话动态（或反之亦然）的研究有限。值得注意的是，Robledo等人表明短暂的节奏干预改善了对话流，表明节奏夹带可以增强沟通协调。类似地，对临床人群的研究探索了节奏参与在改善类似话轮转换行为中的作用。

总体而言，音乐和对话互动都依赖于相似的预测过程，特别是在时间和内容对齐方面。音乐互动以其结构化即兴的性质，为研究预测编码不仅如何在个体大脑内部运作，而且如何在它们之间运作以实现动态和自适应社交协调提供了独特的视角。

3 Speech and Music in ASD Under the Prism of Predictive Coding

3.1 Speech Alignment and Turn-Taking in ASD

ASD个体的声音特征一直是持续研究的主题，可以追溯到该神经发育特征的最早描述。然而，尽管社交互动挑战是ASD的核心，但互动的动态方面，如话轮转换和语言对齐，直到最近才在ASD语言研究中获得关注。由于所检查的发展阶段、个体差异、方法论方法和研究情境的生态效度的可变性，该领域的进展仍然零碎。

语言对齐，或对话者适应其词汇、句法和语音水平语言的倾向，在对话协调、语言处理和社会联结中起着至关重要的作用。鉴于整个谱系中沟通和语言结果的变异性，研究ASD个体的对齐为了解潜在认知过程提供了见解，并对干预、关系建立和生活质量结果具有潜在意义。

Pickering和Garrod提出的交互对齐框架（Interactive Alignment framework）认为感知和生产共享表征，导致自动的多层次对齐，支持预测处理和平滑对话，从而促进沟通。研究这种机制如何在ASD个体中运作——或被改变——可能为了解其互动和语言挑战的性质和变异性以及所涉及的潜在认知过程提供有价值的见解。

话轮转换是对话中预测最明显的方面，在ASD个体中通常较慢，以较长的停顿和静默间隙为标志。据我们所知，只有少数研究显示相反的结果。Wehrle等人使用地图任务发现，ASD成人仅在互动早期表现出较慢的话轮转换。在大约38个话轮之后（平均首次不匹配时间点），他们的节奏与NT参与者对齐。这表明他们可能需要更长时间来适应对话者。类似地，Ochs等人和Choi与Lee报告ASD儿童的话轮转换动态完好，尽管这些研究缺乏精确的时间数据。Wehrle等人进一步指出，NT参与者在不可预测项目（不匹配）后更多地延迟话轮转换，而ASD参与者表现出较少的变化（即可预测项目的缩短较少），表明对项目可预测程度的敏感性较低。

据我们所知，只有两项研究检查了ASD中的音节速率夹带——Wynn等人和Patel等人——两者都报告ASD个体缺乏对齐，与NT个体形成对比。值得注意的是，Wynn等人发现这种夹带不仅在ASD成人和ASD儿童中缺失，而且在NT儿童中也缺失，表明对话中的时间对齐可能有一个发展轨迹。与此一致，Mazzocconi等人同样在笑声模仿中发现了与年龄相关的差异，只有成人表现出可靠的时间对齐。

关于音高或韵律夹带的发现仍然混合：一些研究报告ASD个体保留韵律收敛（成人、青少年和儿童），而其他研究发现与NT个体相比韵律对齐减少（成人和儿童）。在Hogstrom等人中，组间差异仅在音素的声音实现水平上观察到，其中NT个体收敛于其持续时间，而ASD个体没有。收敛程度与自闭特质水平和非典型感觉谱呈负相关，表明社会和感觉处理差异可能影响语音对齐。然而，这项研究基于在协作互动之前和之后朗读句子的独白录音，因此对结果的普遍性提出质疑。

关于强度对齐的研究同样不一致。Ochi等人报告ASD成人没有对齐，而Plank等人报告与NT参与者相比对齐增加。Cola等人观察到NT成人的对齐，但ASD成人在健谈性和对任务的接近度（无聊/感兴趣）方面没有对齐。

相比之下，词汇和句法对齐在ASD中似乎 largely preserved。大多数研究报告ASD和NT个体之间没有显著差异，无论是在成人还是儿童中，而只有两项在儿童和青少年中的研究显示词汇对齐减少。有趣的是，Fusaroli等人显示儿童的词汇和语义对齐纵向增加（再次强调对齐的发展方面），但这种增加对于ASD儿童较慢。

句法对齐的相对一致性表明ASD在该处理水平上具有相似的语言表征，跨越成人和儿童。Kruyt和Benus提出，声学和韵律对齐的差异可能源于这些特征服务于更多的副语言功能。虽然我们确实强调韵律也承载语言和语用功能，但似乎可以合理地表明，ASD个体在某些水平（即词汇和句法）上具有完全保留的语言表征对齐，但在更时间动态的特征上，如韵律、强度和音节速率，对齐减少。

总体而言，现状提供了一个零散的画面，报告 often inconsistent findings due to the wide variability in experimental designs, ecological validity, and methods of analysis。特别是，我们强调，除了Wehrle等人，很少有研究考虑互动时间过程中的对齐。

我们还强调需要研究考虑匹配和混合神经类型二人组（如Wehrle等人所做）。近期证据表明，ASD个体经历的社会困难可能源于神经类型不匹配而非内在缺陷。这在研究对齐时尤其相关，因为它受到互动者之间熟悉度或感知亲密度的强烈调节。此外，应该考虑ASD个体的非典型对齐可能影响其伴侣的行为。自闭症个体的预测困难以及最终减少的对齐可能反过来导致NT互动者的预测困难，从而导致非典型的话轮转换或对齐模式。到目前为止，这主要在发展的背景下进行了研究。

4 Rhythmic Processing and Rhythmic Synchronization Abilities in ASD

4.1 Rhythmic Processing in ASD

虽然ASD中的音高处理已被广泛研究并且通常被发现保留甚至增强，但节奏处理受到的关注相对较少。然而，感知和预测音乐中时间结构的能力在预测和多感觉整合过程中起着关键作用，这些过程通常被假设在自闭症中功能不同。

大量研究一致显示ASD个体中保留或增强的音高和旋律处理（但也看到文献中的异质性，可能由个体认知差异调节）。然而，更 specifically focusing on rhythmic processing of music in ASD的研究仍然相对稀少。两项研究使用了类似的电池（MBEA-s和MBEMA），参与者判断两个音乐序列在音高或节奏上是否相似或不同。两者都发现ASD儿童保留节奏辨别能力，尽管Sota等人令人惊讶地发现在旋律子测试中存在差异。重要的是，这些任务可能更多地依赖于短期记忆而非节奏处理或时间预测，限制了对节拍感知和相关预测能力的结论。

为了解决这个问题，Dahary等人实施了节拍对齐测试（Beat Alignment Test, BAT）的改编，其中ASD和NT儿童识别音乐上叠加的哔哔声是否与节拍对齐。他们发现，虽然ASD儿童在检测 on-beat alignments 方面同样准确，但他们在检测节拍错位（off beat）方面精确度较低。这种不对称性在考虑 off-beat 条件下所需的更大的多感觉整合时很有趣。确实，虽然ASD中的节奏感知可能 overall preserved，但当任务需要整合可变或复杂的感觉输入时，性能可能会受到干扰。这与自闭症的高波动性假说（hypervolatility hypothesis）一致，该假说提出ASD个体高估环境不可预测性。然而，值得注意的是，任务性能在两个组中都低于70%的统计机会阈值，并且NT参与者有更多的音乐训练，可能混淆了结果。

同样地，Cannon等人使用了一个基于节拍器的任务，成年人判断序列中的最后一个音调是提前还是延迟。虽然在主观等时点没有差异，但ASD参与者表现出更高的感知时间噪声——尽管这种效应可能是由异常值驱动的。总之，这些发现表明ASD中的基本节奏处理 broadly preserved，尽管在增加复杂性或感觉负荷的条件下可能出现细微的非典型性。

明确将节奏处理与自闭症预测编码理论联系起来的努力仍然有限。Knight等人使用EEG检查了响应不同复杂性听觉节奏的预测误差的神经标记。与预期相反，他们发现与NT个体相比，自闭症参与者中没有可检测到的差异，即使在节奏复杂性增加的情况下。这些结果挑战了ASD中时间预测全局非典型性的观点，至少在涉及相对较低生态需求的情境中。Lis?y等人从不同角度处理了这个问题，检查了"音乐甜点"（musical sweet spot）的个体差异——音乐复杂性和喜好之间的倒U形曲线的峰值。基于具有较高自闭特质的个体由于对不确定性的高度敏感性可能更喜欢更可预测、更不复杂的音乐的假设，他们预计甜点会发生变化。虽然观察到一些变异性，但没有出现与自闭特质的明确联系。未来的研究可能受益于在临床诊断人群中进行测试，而不是仅仅依赖一般人群中的自我报告措施，那里可能会出现更强的预测效应。虽然这些研究专注于听觉节奏，但来自视觉提示范式的证据也指出尽管在ASD中行为预测保留，但神经夹带减少，表明非典型节奏夹带可能不限于听觉领域。

4.2 Auditory–Rhythmic Synchronization With Rhythmic Patterns in Children With ASD

据我们所知，迄今为止只有一项研究调查了ASD中与节奏模式的同步。Tryfon等人要求ASD和NT儿童随着不同节律复杂性的节奏模式敲击。结果显示没有显著的组间差异，两组都随着年龄增长而改善，并随着节律复杂性增加而表现更差。虽然这些结果似乎与ASD节奏处理的研究结果一致，但似乎 crucial to replicate the results observed in this single study and expand these observations using tempo variations between or within trials，这将更好地捕捉可能揭示ASD差异的那种波动性和适应性挑战。

4.3 Auditory–Rhythmic Synchronization During Metronome-Based Tapping Tasks in ASD

与基于模式的同步相比，基于节拍器的敲击任务被更广泛地使用。虽然它们不涉及音乐节奏本身，但这些任务对于研究预测能力 highly informative，因为它们需要快速整合感觉反馈和错误纠正（即内部模型更新）。

几项近期研究使用相同的计算模型来剖析时间变异性、错误纠正、时间保持器噪声和运动噪声的来源。虽然所有研究都报告在等时敲击期间自闭症组的异步变异性增加，但它们也发现了计算模型主要结果的显著差异。确实，Vishne等人和Kasten等人发现时间保持器噪声没有组间差异（与参考文献一致），或运动噪声。然而，他们确实观察到自闭症组的相位纠正显著减少，意味着他们需要更长时间来调整时间错误，与自闭症的慢更新假说（slow updating hypothesis）一致。相比之下，Cannon等人报告ASD组的时间噪声增加，但相位纠正或运动噪声没有差异。这些差异可能源于方法学变化，如使用的起拍间隔（700 ms与其他研究中的500 ms）或音乐训练的组间不平衡，Cannon试图通过组平衡来解决。

其他研究也报告了敲击性能的变异性增加，无论是在青少年还是成人中。只有Sheridan和McAuley，样本量小（N = 17），报告没有差异。总体而言，跨研究的趋势支持自闭症中节奏运动同步的变异性增加和精确度降低。

4.4 Continuation Phase and Adaptation to Tempo Changes

此任务的变体涉及停止节拍器并要求参与者按节奏继续敲击。这个延续阶段允许通过分析参与者敲击间隔（ITIs）的变异性来研究节奏保持。这里的结果是混合的：虽然Cannon等人和Sheridan与McAuley报告ASD中延续噪声更大，但其他人发现没有差异。值得注意的是，Kasten等人发现ASD参与者从同步阶段到延续阶段的ITI变异性减少更大，表明他们可能受益于减少的外部波动性（减少的多感觉整合可能导致更好的性能），这一发现与高波动性假说（hypervolatility hypothesis）一致。突然的速度变化也可以被引入以测试适应性。在Vishne等人中，随机速度变化被插入整个试验中，自闭症参与者对这些变化的调整减少，表明内部模型更新不灵活。Kasten等人使用了不同的方法，每个试验单次加速或减速，并发现仅在加速条件下存在显著的组间差异。这种设计的 reduced volatility 可能解释了缺乏更广泛的组间差异。最后，Cannon等人也在平衡的自闭症组中发现了对速度扰动的错误纠正减少。

4.5 Interpersonal Auditory–Rhythmic Synchronization in ASD

最后，研究自闭症中人际听觉-节奏同步能力的研究，即与另一个个体在时间上的协调，甚至比检查个体节奏技能的研究更罕见。

Kawasaki等人检查了ASD成人中的反相同步能力。参与者以稳定节奏与恒定虚拟伙伴、可变虚拟伙伴和NT人类伙伴来回敲击按键。结果显示与恒定虚拟伙伴保留反相同步能力，但与可变虚拟和人类伙伴的性能受损。这些发现提出了一个有趣的想法，即自闭症中的同步困难可能更 closely related to stimulus variability than to a simple distinction between social and nonsocial stimuli。

其他研究使用节奏提示调查了ASD儿童的人际同步。例如，Kaur等人强调了ASD儿童在人际节奏同步中的受损，当他们与实验者一起拍手、行进、行进和拍手或打鼓时。与NT同伴相比，ASD儿童与成人伙伴同步的时间更少。相反，Yoo和Kim提出了节奏提示可能促进人际同步的可能性：他们观察到当存在节奏提示时，与成人伙伴的击鼓任务中的异步性减少，与无提示条件相比。然而，这项研究涉及小样本（10名ASD参与者）并且没有包括任何组比较，限制了其结论的强度。

在另一系列研究中（全部基于相同数据集），研究人员发现自闭症儿童在手拍和击鼓任务中节奏相干性降低。然而，模仿和同步阶段之间似乎出现了分离。例如，组间在相干性上的差异在同时同步期间似乎大于顺序模仿期间。类似地，Romero等人报告了跨组反相协调的等效发生。这些发现可能与高波动性假说（hypervolatility hypothesis）相关，因为它们表明ASD个体在允许延迟响应而不是同步时可能表现更好。这将减少持续预测和实时适应的需要。

总体而言，在人际听觉-节奏同步期间更高的时间变异性似乎是自闭症中一个 recurrent finding。然而，潜在机制 poorly understood。未来的研究需要确定它们主要是由社会因素驱动，还是由人类伙伴增加

热点排行

新闻专题

联系信箱：

粤ICP备09063491号