一个包含时间对齐的发音图、脑电图、音频以及声道解剖结构的多模态语音生成数据集

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Data》：A multimodal speech-production dataset with time-aligned articulography, EEG, audio, and vocal-tract anatomy

【字体：大中小】 时间：2026年07月03日 来源：Scientific Data 7.2

编辑推荐：

　　摘要我们提供了一个多模态语音生成数据集，其中包含了29名德语母语成年人的同步电磁发音图、脑电图以及音频数据。所有参与者都接受了外部颅面测量；其中一部分人（N=18）还提供了声学咽部测量数据、鼻部测量数据以及3D头部表面模型。语音材料包括以常规速度和最快速度产生的高重复次数的连续发

摘要

我们提供了一个多模态语音生成数据集，其中包含了29名德语母语成年人的同步电磁发音图、脑电图以及音频数据。所有参与者都接受了外部颅面测量；其中一部分人（N=18）还提供了声学咽部测量数据、鼻部测量数据以及3D头部表面模型。语音材料包括以常规速度和最快速度产生的高重复次数的连续发音序列，还有用于段落朗读和长元音发音的电磁发音图与音频结合的数据，以及用于追踪上颚动作和非语音性口部运动的电磁发音图数据。该数据集包含8,700次音节任务测试，以及大约17小时的带有对应音频的电磁发音图数据。通过微控制器，每个电磁发音图扫描的开始和结束时刻会被转换为1毫秒级的晶体管-晶体管逻辑电平脉冲，从而实现亚毫秒级的时间对齐。我们提供了原始数据及经过简单处理的数据流、稳定的事件编码、机器可读的元数据，同时还提供了示例Python工具（以及相应的容器），用于数据的加载、同步和基本预处理。该资源可用于研究如何利用发音特征进行脑电图时间对齐、分析动作前的脑电活动、评估语音产生的脑电图干扰问题，以及构建基于解剖结构的模型，将声道结构与发音动态及声学特性联系起来。数据和代码均依据CC-BY 4.0许可协议公开提供，同时附有带版本号的数字对象标识符。

联系信箱：

粤ICP备09063491号

摘要

热点排行