PAVSig:波兰多通道视听儿童语音数据集与双专家诊断的齿音异常研究

《Scientific Data》:Polish multichannel audio-visual child speech dataset with double-expert sigmatism diagnosis

【字体: 时间:2025年10月03日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决儿童齿音异常(Sigmatism)计算机辅助诊断(CASD)缺乏高质量多模态数据的问题,研究人员开展了“PAVSig”主题研究,构建了包含201名4-8岁儿童、66,781个视听片段的多通道数据集,采用15通道空间音频和双摄像头立体视觉技术记录发音过程,并配备双言语语言治疗师(SLP)独立诊断。该数据集为开发自动化发音分析工具提供了关键资源,显著推进了波兰语语音障碍的客观化评估进程。

  
在儿童语言发展过程中,发音障碍是常见的临床问题,其中齿音异常(Sigmatism,俗称“大舌头”)尤为普遍。这类障碍表现为/s/、/z/等咝音(sibilants)的发音错误,严重影响沟通质量与心理发展。尽管计算机辅助语音诊断(Computer-Aided Speech Diagnosis, CASD)和计算机辅助语音治疗(Computer-Aided Speech Therapy, CAST)技术近年来快速发展,但其应用效果高度依赖特定语言的发音特性与高质量数据支撑。目前,针对波兰语等斯拉夫语系的儿童语音数据集严重匮乏,且现有采集方法(如电磁发音仪EMA、电腭图EPG)具有侵入性、成本高昂,难以在临床推广。更关键的是,缺乏同时整合发音器官动态视觉信息与多通道声学信号的数据资源,限制了诊断模型的准确性与鲁棒性。
为解决这一瓶颈,由波兰西里西亚理工大学(Silesian University of Technology)生物医学工程系Michal Kreichwost、Zuzanna Miodonska、Agata Sage等学者牵头,联合言语语言治疗专家,在2019-2024年开展了名为“混合系统用于儿童齿音异常多模态信号采集与处理”的国家科学中心项目。研究团队于2021-2023年在波兰六所幼儿园及学校招募201名4-8岁儿童(107名女孩、94名男孩),通过自主设计的 multimodal data acquisition device (MDAD) 采集了15通道空间音频信号与双摄像头口腔区域立体视觉流,构建了名为PAVSig(Polish Audio-Visual child speech dataset for computer-aided diagnosis of Sigmatism)的大规模数据集。每个儿童的发音均获得两名言语语言治疗师(Speech and Language Therapist/Pathologist, SLP)的独立诊断,最终共享66,781个视听片段(含12,830个词语和53,951个音素),覆盖波兰语全部12个咝音。该数据集以专业级数据标准发表于《Scientific Data》,为开发非侵入式、多模态融合的儿童语音障碍筛查与干预系统提供了关键基础设施。
研究团队创新研发了 multimodal data acquisition device (MDAD) 作为核心采集设备。该设备采用半圆柱形麦克风阵列(15个Panasonic WM-61A全向麦克风,采样率44.1 kHz)与双Arducam 8MP摄像头(帧率30 fps,分辨率640×480)同步记录音频与口腔立体视觉流,并通过3D打印结构适配儿童头围,结合LED照明优化成像质量。数据预处理阶段,采用YOLO v6模型定位唇部感兴趣区域(ROI),对视频帧进行标准化裁剪(240×640像素)以保护隐私,同时生成与音频同步的TextGrid音素标注文件。言语材料包含51个词语和17个语音组合(logotomes),覆盖咝音在词首、词中、词尾的发音位置,并由两名SLP依据95项诊断问卷(含解剖功能评估与咝音发音特征分析)进行双盲诊断。

研究方法设计与数据采集框架

研究采用三阶段评估流程:第一阶段由儿童通过MDAD命名屏幕图像(如“狗”“飞机”),同步采集视听数据;第二阶段由SLP引导重复特定词语与语音组合,并记录舌部运动等功能动作;第三阶段为纯临床诊断,不进行数据记录。该设计既保障了数据生态效度,又确保了诊断标准的专业性。MDAD设备经历两代迭代(封闭式与开放式结构),通过空间声学校准(信噪比62 dB)与立体视觉系统标定(平均误差0.39像素),实现了多模态信号的高精度同步与可重复采集。

数据集结构与质量控制

PAVSig以分层文件夹结构组织数据,每个参与者独立目录包含原始15通道WAV音频、MP4格式视频(H.264编码)及诊断CSV文件。数据有效性验证显示,97%的语音片段被标记为“完整可用”(数据有效性级别DVL=1.0),仅3%存在轻微发音变异或技术干扰。针对12,576个咝音实例的分布统计表明,数据集均衡覆盖了波兰语四类咝音:齿龈音(/s/, /z/, /ts/, /dz/)、卷舌音(/?/, /?/, /t?/, /d?/)与硬腭音(/?/, /?/, /t?/, /d?/),为不同发音错误的对比分析提供了充分样本。

多模态数据融合与诊断标注价值

研究创新性地将空间音频分析与口腔立体视觉结合,使研究者能够同步观察舌、唇、齿等发音器官的运动轨迹与声学特征关联。双SLP诊断问卷不仅包含咝音的发音部位(place of articulation)、发音方式(manner of articulation)等语言学特征,还整合了舌系带、呼吸模式等生理功能评估,为建立发音错误与生理基础的多维度关联模型奠定了基础。数据集中20名参与者虽仅获单次诊断,但整体双诊断率达90%,显著提升了标注可靠性。

技术验证与数据完备性保障

设备性能测试表明,MDAD在1–8 kHz频率范围内均一响应,可有效检测发音时的气流方向异常(如侧化现象)。尽管部分早期数据存在5通道音频缺失(21例)或个别诊断遗漏,团队通过严格的数据清洗与标注复核,确保了最终发布的12,830个词语片段与53,951个音素片段的科学可用性。数据集特别提供了音素级对齐标注,支持从语音学分析到深度学习模型的多样化研究需求。
PAVSig数据集的建立,首次系统性地解决了波兰语儿童齿音异常研究中的多模态数据缺失问题。其价值不仅体现在大规模、高标注质量的视听资源上,更在于通过非侵入式设备实现了临床自然场景下的数据采集,为CASD/CAST技术从实验室走向实际应用提供了关键桥梁。未来,该数据集可用于训练深度学习模型,自动识别发音错误类型(如舌前化、侧化)、量化发音器官运动参数,甚至开发家庭自主康复训练系统。此外,数据集中包含的元数据(如年龄、性别、发音环境)为研究儿童语音发展规律提供了纵向分析可能。尽管设备仍存在重量与舒适度优化空间,但PAVSig已为全球语音障碍研究,特别是斯拉夫语系相关工作设立了新标准,有望推动个性化、精准化语音康复技术的快速发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号