
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能驱动下儿童嗓音数据库的年龄特异性协议开发与标准化研究
【字体: 大 中 小 】 时间:2025年07月07日 来源:International Journal of Pediatric Otorhinolaryngology 1.2
编辑推荐:
为解决儿童嗓音数据采集缺乏标准化协议的问题,美国国立卫生研究院(NIH) Bridge2AI项目团队开发了4套年龄分层(2-18岁)的语音采集协议,通过iPad应用结合儿童专用麦克风实现临床级数据采集,为AI嗓音分析建立首个大规模儿科数据库。该研究发表于《International Journal of Pediatric Otorhinolaryngology》,其标准化方案将推动嗓音障碍诊断AI模型的开发。
在医疗人工智能快速发展的今天,儿童嗓音研究却面临着独特的挑战。与成人稳定的嗓音特征不同,从牙牙学语的幼儿到青春期的少年,声带结构、共鸣腔体和神经调控系统都在持续发育变化。这种动态特性使得传统"一刀切"的语音采集方法难以捕捉关键声学参数,导致儿科嗓音数据库建设严重滞后。美国国立卫生研究院(NIH)2022年启动的Bridge2AI计划中,由多机构专家组成的团队敏锐地意识到:缺乏标准化的年龄特异性协议,已成为制约儿童嗓音障碍AI诊断模型发展的关键瓶颈。
为解决这一难题,来自耳鼻喉科、言语病理学和发育儿科学领域的专家开展了为期6个月的协作研究。团队创新性地将2-18岁儿童划分为4个关键发育阶段(2-<4岁、4-<6岁、6-<10岁、10+岁),为每个阶段量身定制语音任务。这些任务既考虑到了各年龄段的语言认知能力差异,又确保能稳定采集基频(F0)、谐噪比(HNR)等核心声学指标。研究采用儿童友好型设计,通过iPad应用程序引导完成标准化流程,并使用固定距离的迷你头戴麦克风保证录音质量。
方法学创新
研究团队采用多中心协作模式,整合了100例2-18岁儿科患者的临床数据。关键技术包括:(1)基于NIH Bridge2AI框架的伦理数据采集系统;(2)开发包含人口统计学、医疗史和标准化问卷(Pediatric VHI-10)的三维数据模块;(3)采用迭代设计优化任务流程,确保不同年龄段儿童的配合度;(4)建立质量控制体系,最小化声学测量变异。
分层协议成果
2-<4岁组:设计游戏化元音发声任务,通过视觉反馈引导持续发音,解决幼儿注意力短暂难题。
4-<6岁组:引入简单句子重复,同步评估语音清晰度和语调变化,捕捉语言爆发期特征。
6-<10岁组:增加阅读段落任务,分析连贯语音中的声学稳定性,反映学龄期嗓音成熟度。
10+岁组:结合自主对话与标准文本朗读,全面评估变声期嗓音参数动态变化。
临床与科研价值
该研究创建的Voice2AI协议首次实现了儿科嗓音数据的年龄标准化采集。数据库包含多维度的声学生物标志物,为AI训练提供了高质量素材。特别值得注意的是,协议中整合的医疗史与遗传诊断数据,使得后续研究能探索嗓音特征与特定疾病(如22q11.2缺失综合征)的关联模式。
正如通讯作者Yael Bensoussan团队强调的,这项工作的突破性在于将发育生物学原理融入AI数据采集标准。通过精确匹配儿童神经语言发育阶段与任务复杂度,协议既保证了科学严谨性,又具备临床可操作性。未来,随着万人级儿科嗓音数据库的建成,这些年龄特异性协议将为嗓音障碍早期筛查、自闭症语音特征识别等AI应用奠定基础,最终实现"从实验室到诊室"的转化医学突破。
生物通微信公众号
知名企业招聘