谐波性在复调音乐中人声分离中的作用:基于声学线索的听觉场景分析研究

【字体: 时间:2025年08月30日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对复调音乐中人声分离的机制展开探索,通过操纵谐波性(harmonicity)和声部数量,揭示了谐波性对音乐场景分析的关键作用。研究人员采用MIDI生成的女声音频片段,通过频率偏移(±10%/±30% F0)构建非谐波(inharmonic)刺激,结合计数(Experiment 1)和旋律追踪(Experiment 2)任务,发现谐波性破坏会降低人声分离准确性,但任务表现仍显著高于随机水平。该研究发表于《Scientific Reports》,为音乐感知的听觉场景分析(ASA)理论提供了新证据,并揭示了谐波性与声部数量的交互效应。

  

在嘈杂的餐厅里,人们能轻松分辨不同的对话声,这种被称为“鸡尾酒会效应”的现象,体现了听觉系统强大的场景分析能力。然而,当面对复调音乐中交织的多个声部时,人脑如何分离和追踪特定旋律?这一问题长期困扰着音乐认知研究者。传统观点认为,谐波性(harmonicity)——声音中频率成分的整数倍关系——是声源分离的关键线索,但其在音乐感知中的作用机制尚不明确。Lisanne G. Bogaard团队在《Scientific Reports》发表的研究,首次系统探索了谐波性破坏对复调音乐感知的影响。

为回答这一问题,研究人员设计了两项创新实验:通过MIDI技术生成四秒女声音乐片段,操纵前30个谐波的频率偏移(±0%/±10%/±30% F0)创建谐波(harmonic)与非谐波(inharmonic)刺激,并严格控制音色一致性。实验1要求受试者判断1-5个同步声部的数量,实验2则通过提示音-探测音范式评估受试者追踪特定声部的能力。

Experiment 1: 声部可数性

结果显示,谐波性对声部计数影响显著(p<0.001),尤其在1-2声部时差异最大(OR=34.1,inharm30 vs harmonic)。但随着声部增加至4-5个,谐波性优势消失,响应趋于低估(图2)。

混淆矩阵(图3)进一步揭示错误多集中在±1声部的偏差范围内。

Experiment 2: 旋律追踪能力

在需主动追踪声部的任务中,谐波性效应更持久(p<0.001),d'值从谐波条件的1.68降至inharm30的1.02(2声部)。控制实验证实任务依赖真实的场景分析(图6),边缘声部(edge voice)优势显著(p<0.001)。

这项研究首次证明:谐波性虽能增强复调音乐中的声部分离,但并非必要条件。当谐波结构被破坏时,听觉系统仍能通过其他线索(如时间异步性)完成任务。这一发现拓展了听觉场景分析理论在音乐领域的应用,为音乐信息检索算法设计提供了新思路。研究还揭示了音乐训练效应的复杂性——音乐家仅在特定条件下(如2-3声部谐波条件)表现更优,暗示专业训练可能优化而非重构听觉处理策略。未来研究可进一步探索音色异质性(timbral heterogeneity)与谐波性的交互作用,以更贴近真实音乐场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号