编辑推荐:
为解决高质量音频 - 超声数据集稀缺,且现有英文超声数据库存在分辨率低等问题,研究人员开展构建多模态普通话语音数据库的研究。得出包含 43 名健康者和 11 名构音障碍患者数据,总时长 22.31 小时的数据集。该数据集对语音识别、病理研究等意义重大。
在语音研究的奇妙世界里,我们每天说出的各种语音,看似平常,实则背后有着复杂的生理机制。根据语音产生的源 - 滤波器理论(Source - Filter Theory of Speech Production),语音是声带周期性振动产生的声源,经过声道共鸣后形成的。而舌头、嘴唇和上颚等发音器官(Articulators)在这个过程中起着关键作用,它们通过改变声道形状,把原始的声门(vocal fold)声音塑造为有意义的语音。比如,不同的舌头位置和运动,能产生不同的元音和辅音,这些细微的变化影响着语音的精准度和准确性。
然而,想要深入研究语音产生的奥秘,却面临着诸多挑战。目前,用于可视化发音过程的技术各有优缺点。磁共振成像(Magnetic Resonance Imaging,MRI)虽然能捕捉整个声道,但它的时间分辨率较低,难以捕捉快速运动,而这些快速运动对于理解语音产生的复杂动态至关重要。电磁关节造影(Electromagnetic Articulography,EMA)能提供特定发音器官的精确轨迹,但它只能提供离散的位置数据,而且具有侵入性,会让受试者感到不适,操作也比较耗时。相比之下,超声成像(Ultrasound Imaging,UTI)作为一种非侵入性、实时的技术,能在不危害健康的情况下,动态地可视化舌头运动,成为了研究人员的重要工具。
不过,另一个问题出现了,高质量的音频 - 超声数据集非常稀缺。现有的多个英文超声数据库,像包含 82 名英语参与者的 TAL 语料库,虽然提供了超声图像、唇视频和音频数据,但超声图像分辨率较低,难以识别精细的发音信息。UltraSuite 数据集同样存在分辨率低的问题,而 SSR7000 数据集虽然超声分辨率高,却仅包含一名英语说话者的数据。对于普通话这种声调语言来说,其声调变化需要快速而精确的口腔和舌头运动,构建一个普通话超声数据集具有极大的研究价值,同时在临床和实际应用方面也意义非凡,比如用于自动语音识别(Automatic Speech Recognition,ASR)训练系统、早期准确识别构音障碍(articulation disorders)的类型和严重程度、将普通话作为第二语言的教学以及儿童语音障碍研究等。
为了解开这些难题,中国科学院深圳先进技术研究院、中山大学第八附属医院、天津大学和香港大学的研究人员携手开展了一项重要研究。他们成功构建了一个多模态普通话超声数据集 AUSpeech,这个数据集整合了舌运动的同步超声图像、相应的音频记录和文本注释,为研究普通话语音产生的动态发音机制提供了一个全面的平台。该研究成果发表在《Scientific Data》上,为语音研究领域带来了新的突破。
研究人员为开展这项研究,用到了几个主要关键的技术方法。在数据采集方面,音频录制使用 BOYA BY - WM4 PRO 无线领夹麦克风,以 16kHz 采样率、16 位编码和单声道音频进行采集;UTI 数据通过 Focus & Fusion Finus 55 超声设备搭配相控阵探头(P5 - 2)获取。为同步音频和超声信号,使用了 AVerMediaGC553 4K 数据采集卡。同时,还开发了定制的支撑系统来稳定超声探头,减少头部运动对成像的影响。在数据处理和标注上,利用 Montreal Forced Aligner(MFA)和 Voice Activity Detection(VAD)工具对语音和文本数据进行强制对齐和自动标注,并通过手动检查注释确保准确性。
下面来看看具体的研究结果:
- 参与者:AUSpeech 数据集包含两组参与者,43 名健康受试者和 11 名构音障碍患者。健康参与者平均年龄 24.2 岁,构音障碍患者平均年龄 60.0 岁。所有参与者均为普通话母语者,且健康参与者无语音、听力或神经系统疾病史,构音障碍患者符合相应的纳入和排除标准。
- 语音材料:语音材料设计包括元音、单音节和句子生成任务,这些任务涵盖了几乎所有常见的中文发音模式,特别关注了关键语音现象的发音模式,如舌根音(例如 [t?]、[t??]、[?])、前高元音(例如 [i])和圆唇后元音(例如 [u]、[y])。
- 数据采集设备:详细说明了音频和 UTI 数据的采集设备及参数,如超声设备的采样率为 60 帧每秒(fps)、空间分辨率为 920×700 像素等,还介绍了同步音频和超声信号的方法以及定制支撑系统稳定超声探头的具体措施。
- 实验范式:数据采集在受控的声学环境中进行,参与者按顺序朗读屏幕上的语音提示内容。每个发音试验分为准备阶段、发音阶段和试验间隔阶段,且要求健康参与者在试验开始和结束时进行三次吞咽动作作为时间标记,以便对比患者和健康个体的发音运动差异。
- 数据注释:利用 MFA 和 VAD 工具自动标注语音和文本数据,并生成 TextGrid 注释文件,同时进行手动检查注释,对于患者数据则全部进行手动精确注释,以确保语音和舌头运动在时间维度上的准确对应。
- 数据记录:AUSpeech 数据集可在https://cstr.cn/31253.11.sciencedb.1872227获取,总大小约 676.16GB。数据包含 22.31 小时的同步音频和超声数据,按正常和患者会话分类,进一步细分了不同性别、任务的时长。数据以分层目录结构组织存储,方便访问和检索。
- 技术验证:严格筛选异常 UTI 数据,包括无信号帧和发音运动明显静止的帧。通过相似性检查脚本和静态帧检测算法识别异常帧,并经专业人员手动审核后丢弃。此外,利用 AUSpeech 正常子集进行的声学 - 发音反演生成任务表明,生成的舌头运动模式和图像与原始超声图像在空间细节和时间动态上相似,证明了数据集的可靠性。
研究结论和讨论部分,这个多模态普通话超声数据集 AUSpeech 具有重要意义。它不仅为普通话语音学研究提供了重要的基础数据,还为跨语言研究、语音识别、语音合成和临床语音治疗等应用提供了有力支持。其高质量的数据和系统的组织方式,为语音动力学、语音学和临床语音研究等领域的进一步探索提供了宝贵资源,有助于推动相关领域的发展,让我们对语音产生的奥秘有更深入的理解,也为解决语音相关的实际问题提供了新的途径和方法。