
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SONIVA数据库:失语症患者的语音识别验证
《Scientific Data》:SONIVA database: Speech recognition validation in aphasia
【字体: 大 中 小 】 时间:2026年06月14日 来源:Scientific Data 6.9
编辑推荐:
摘要中风后失语症是全球语言障碍和神经功能障碍的重要原因,因此自动化评估成为研究领域的重点。然而,目前经过临床验证的自动语音识别系统仍受限于缺乏能够涵盖失语症各种表现形式的大规模标注数据集。我们推出了SONIVA(失语症语音识别验证数据库),这是目前规模最大、最全面的用于验证失语症
中风后失语症是全球语言障碍和神经功能障碍的重要原因,因此自动化评估成为研究领域的重点。然而,目前经过临床验证的自动语音识别系统仍受限于缺乏能够涵盖失语症各种表现形式的大规模标注数据集。我们推出了SONIVA(失语症语音识别验证数据库),这是目前规模最大、最全面的用于验证失语症语音识别技术的数据库,其中包含了大约1,000名中风患者以及6,000名年龄匹配的对照组的音频记录。该数据集包含571名中风患者的标注语音,其中103人提供了纵向跟踪记录(平均年龄:60.65 ± 12.97岁;男性占比68.77%),还有103名对照组参与者(平均年龄:59.64 ± 11.48岁;男性占比62.05%)。这些记录还附有详细的语言编码、拼写转写以及国际音标标注。在SONIVA数据集上微调的基础模型与专家转写的结果高度一致(斯皮尔曼相关系数为0.79-0.86;p值小于0.0001),而声学分类器的中风识别准确率可达93%,从而为康复训练和临床评估提供了可扩展的分析工具。