频谱峰值提取(tSPP)改善触觉语音感知:一种可穿戴触觉助听器的信号处理新策略
《Scientific Reports》:Spectral peak picking improves tactile speech perception
【字体:
大
中
小
】
时间:2025年11月25日
来源:Scientific Reports 3.9
编辑推荐:
【编辑推荐】针对听力损失者语音感知差异及触觉感官替代设备传递关键语音特征效率低下的问题,本研究将频谱峰值提取(SPP)策略适配于触觉模态,提出触觉频谱峰值提取(tSPP)算法,并集成至共振峰聚焦触觉声码器(formant-focused tactile vocoder)。研究通过26名参与者的手腕触觉音素辨别测试发现,与单独使用声码器相比,采用一峰、二峰或四峰tSPP均能显著提升辨别准确率,其中一峰和二峰tSPP改善最大(平均提升7.5%)。该算法适用于可穿戴感官替代设备的实时处理,为开发高效触觉助听器提供了新途径。
在我们周围,许多人因听力损失而在沟通中面临挑战。传统的助听器和人工耳蜗(Cochlear Implant)虽然提供了巨大帮助,但在嘈杂环境中或对于某些复杂的语音信号,其效果仍可能受限。近年来,一种名为“触觉助听器”(haptic hearing aid)的新兴技术引起了研究者的兴趣。这种设备旨在通过皮肤上的振动(即触觉)来传递语音信息,作为听觉的一个补充通路,这被称为感官替代(sensory substitution)。想象一下,手腕上佩戴的一个小巧设备,能够通过不同的振动模式告诉你别人在说什么——这为听力受损者描绘了一幅充满希望的图景。然而,将语音中丰富而关键的声学线索(acoustic-phonetic cues),特别是频谱特征,有效地通过振动触觉(vibrotactile stimulation)传递出去,一直是个技术难点。传统的触觉设备要么体积庞大不实用,要么传递详细频率信息的能力有限。
幸运的是,随着致动器(actuator)技术的进步,如今已经出现了低成本、小巧且能产生高强度、宽频率范围振动的设备。这使得一种名为“触觉声码器”(tactile vocoder)的技术得以有效应用。这种技术将声音分解成多个频率波段(frequency bands),提取每个波段的振幅包络(amplitude envelope),并用这些包络来调制施加在皮肤上的振动强度,实现了频率对频率的映射(frequency-to-frequency mapping)。最近,一种“共振峰聚焦”(formant-focused)的触觉声码器变体通过更密集地分布频率波段 around the first and second formant frequencies,进一步改善了元音信息的传递。但是,如何在此基础上进一步优化,优先传递语音中最显著、最具有感知重要性的特征,从而提升触觉语音感知的整体效果,仍然是研究人员探索的方向。
在人工耳蜗信号处理领域,一种名为“频谱峰值提取”(Spectral Peak Picking, SPP)的技术已被证明能有效提升语音识别率。该技术在每个时间帧内只传输能量最高的频率波段的信息,从而强调了最显著的频谱特征。受此启发,来自英国南安普顿大学(University of Southampton)的Mark D. Fletcher博士及其同事思考:能否将SPP策略成功地适配到触觉模态,用于可穿戴的触觉助听器呢?他们的研究成果《Spectral Peak Picking Improves Tactile Speech Perception》发表在《Scientific Reports》期刊上,对此给出了肯定的答案。
为了回答触觉感官替代中如何优化语音特征传递的问题,研究人员开展了一项精心设计的心理物理学实验。他们开发了触觉版本的频谱峰值提取算法(tactile spectral peak picking, tSPP),并将其整合到之前已开发的共振峰聚焦触觉声码器策略中。该算法使用短分析窗口,以便快速适应动态语音线索。研究招募了26名触觉感知正常的参与者(年龄18-37岁,平均26岁),在其手腕背部进行触觉音素辨别测试。实验比较了四种条件:单独使用触觉声码器(基线,相当于无tSPP或选择八个波段)、以及触觉声码器结合tSPP算法分别选择一、二或四个能量最高的频率波段。测试采用三间隔三选一的奇偶辨别任务(three-interval, three-alternative forced-choice phoneme discrimination task),使用包含45对音素(涵盖辅音和元音,由男女说话人录制)的语料库。为排除绝对强度线索,刺激强度在一定范围内随机变化,并通过耳机播放粉红噪声以掩蔽残余听觉线索。主要技术方法包括:1. 基于八波段共振峰聚焦FIR滤波器组的触觉声码器进行音频到触觉的转换;2. 新开发的tSPP算法,每6毫秒更新一次所选能量峰值波段;3. 使用中心频率在94.5至327.5 Hz范围内的振动触觉载波 tones,该范围适合紧凑型致动器且触觉灵敏度高;4. 针对参与者手腕部位的振动触觉心理物理学测试平台,确保刺激传递的精确性和可重复性。
研究发现,在所有tSPP条件下,平均音素辨别准确率均显著高于随机猜测水平(33.3%)。与基线(无tSPP,平均准确率65.1%)相比,四峰、二峰和一峰tSPP均能显著提升辨别性能,平均准确率分别达到67.4%、72.7%和72.5%。其中,二峰和一峰tSPP带来的改善最大(平均改善约7.5%),且两者之间无显著差异,而四峰tSPP的改善幅度(2.3%)相对较小。统计检验表明,二峰和一峰tSPP带来的改善显著大于四峰tSPP。此外,音素辨别性能在辅音上(平均71.8%)优于元音(平均65.8%),并且对女声说话人(平均72.9%)的辨别优于男声说话人(平均66.0%)。存在显著的三因素(峰值数量、音素类型、说话人)交互作用,表明tSPP的效果在不同条件下有所差异。
进一步的探索性分析揭示了tSPP对不同类型音素辨别的具体影响。对于二峰tSPP,在由发音部位不同的清塞音(voiceless plosives)、由清浊音特征(voicing)不同的辅音、以及同时由发音部位和清浊音特征不同的辅音辨别上,均观察到了显著的改善(改善幅度10.6%-17.6%)。对于元音,单韵母(monophthong)和双韵母(diphthong)的辨别均有提升,双韵母的改善尤其显著(16.0%)。对于一峰tSPP,同样在清塞音(发音部位不同)、浊擦音(voiced fricatives,发音部位不同)、以及双韵母的辨别上观察到显著改善。然而,一峰tSPP在处理由发音部位不同的清擦音(voiceless fricatives)时,性能相比基线显著下降了18.9%。这表明,虽然一峰表示在多数情况下有效,但其无法同时传递低频浊音和高频摩擦噪声,而这对某些音素(如清擦音)的辨别至关重要。
事后分析未发现音素辨别表现与参与者的振动触觉检测阈值、年龄或手腕周长存在显著依赖关系。此外,通过比较首次测量和重复测量的表现,排除了系统性的学习或疲劳效应对结果的影响。
本研究成功复现了先前的研究发现,即使用共振峰聚焦触觉声码器在手腕上进行触觉音素辨别是可行的,且性能显著高于随机水平。更重要的是,研究证明,在声码器基础上增加tSPP算法,特别是选择一或两个频谱峰值,能显著提升触觉音素辨别能力,平均改善达7.5%。这一改进具有重要意义,因为tSPP算法计算简单,适合在紧凑型可穿戴触觉助听器上实时运行,并且可能通过减少在致动器功率效率较低频率上的振动来延长电池寿命。
tSPP带来性能提升的原因可能在于,它通过选择最显著的频谱峰值,减少了同时调制的触觉 tones 之间的干扰。触觉系统相对较长的时间整合窗口可能导致紧密相邻的调制相互影响甚至部分掩蔽,从而模糊关键的时间特征。tSPP通过稀疏化频率表征,降低了这种并发调制竞争,使得最具信息量的时间包络主导感知。同时,由于峰值选择是随时间快速更新的,关键频谱内容(如共振峰过渡 formant transitions)的时间变化仍能被有效传递,并且在峰值数量较少时可能变得更加显著。这解释了为何一峰和二峰tSPP能带来最大改善。
研究结果部分支持了最初的假设。虽然预期tSPP通过改善共振峰信息传递会对元音产生更大益处,但并未发现与辅音存在明确差异。不过,一峰或二峰tSPP确实显著改善了双韵母的辨别,这可能得益于其对快速共振峰过渡的更准确表征。然而,一峰tSPP在清擦音辨别上的表现下降,暴露了其局限性——无法在同一帧内传递频谱倾斜(spectral tilt)等多重线索。如图3示例所示,对于浊擦音/z/,二峰tSPP能同时捕获低频浊音和高频摩擦噪声,而一峰tSPP只能捕获其中之一。这表明二峰tSPP可能在未来实际的语音识别任务中具有更广泛的适用性。
本研究也存在一些局限性。参与者均为听力正常的年轻人,而触觉灵敏度可能随年龄下降,因此结果在泛化到目标用户群体时需要谨慎。不过,既往研究并未发现触觉语音表现与听力损失状况、触觉灵敏度或年龄存在显著关联。此外,研究仅在音素水平进行评估,未来需要探索tSPP带来的音素级增益是否能推广到词语或句子等更高层级的语音感知任务中。
与一些早期采用模拟过零检测等方法来提取基频(fundamental frequency)等底层语音特征的触觉辅助设备不同,本研究基于触觉声码器的方法直接表征声学能量的分布,强调对应于共振峰能量的频谱区域。这种表征即使在输入信号失真或有噪声时也保持意义,并且可能更有利于与视觉(如唇读)和任何残余听觉进行有效的多感官整合(multisensory integration),这对于触觉助听器在真实环境中的有效性至关重要。
展望未来,根据用户个体需求定制触觉声码器(如调整频率波段目标、触觉刺激轮廓)可能进一步提升性能。同时,在复杂或嘈杂的声学场景中,tSPP的鲁棒性可以通过更先进的波段选择策略或结合噪声抑制方法来增强。
总之,这项研究提供了强有力的证据,表明触觉频谱峰值提取(tSPP)能显著增强触觉声码器策略下的音素辨别能力。正如SPP对于优化人工耳蜗性能已被证明至关重要一样,tSPP有望在最大化通过触觉助听器实现的语音理解方面发挥同样关键的作用,为开发有效的下一代感官替代设备铺平了道路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号