基于迁移学习的儿童吞咽音自动分割与检测技术突破：数字颈听诊新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月04日 来源：Dysphagia 2.2

编辑推荐：

　　为解决儿童吞咽障碍诊断中人工分割耗时且临床可行性低的问题，澳大利亚格里菲斯大学团队开展基于迁移学习（transfer learning）的深度学习模型研究，利用预训练音频分类网络YAMNet提取特征，结合前馈神经网络（FCNN）实现儿童吞咽音91%的自动检测准确率，敏感度达81%。该技术首次在儿童群体中实现高精度吞咽音分割，并能识别训练集未涵盖的唾液吞咽事件，为吞咽障碍无创诊断提供关键技术支撑。

吞咽障碍是儿童喂养障碍的核心问题，其中误吸（aspiration）——食物或液体进入气道的现象——在儿科患者中发生率高达34%-90%，可导致慢性肺病和发育迟缓。目前诊断金标准视频荧光吞咽检查（VFSS）存在辐射暴露、操作复杂等局限，而临床常用的颈听诊技术（CA）虽具高灵敏度（0.85-0.93），却因依赖专家手动分割音频而难以推广。现有成人吞咽音自动检测技术准确率仅76%-95%，且缺乏儿童数据支持。这一技术空白促使澳大利亚昆士兰州卡布尔彻医院与格里菲斯大学团队开展创新研究。

研究团队采用迁移学习策略，以预训练的YAMNet深度卷积神经网络（DCNN）为基础模型，结合零交叉率（ZCR）特征增强，构建三层前馈神经网络（1024-1024-512单元）。通过将0.96秒音频帧分割为6个0.16秒子帧提升时间分辨率，在16名健康儿童（4-35月龄）和19名喂养障碍患儿（3-71月龄）的558次薄液体吞咽音数据集中验证性能。

方法学创新

特征提取：将44.1kHz音频降采样至16kHz后生成log-Mel频谱图，输入YAMNet获取1024维嵌入向量，与ZCR特征拼接
模型架构：保留YAMNet卷积层权重，仅训练顶层FCNN，采用L2正则化防止过拟合
数据划分：严格分离VFSS训练集（80%）与喂养观察测试集，避免患者数据交叉污染

关键发现

高精度检测：模型总体准确率达91%，对非吞咽音特异性94%，吞咽音召回率81%
临床泛化性：成功识别测试集中未标注的5次唾液吞咽，证明对非营养性吞咽的识别能力
技术对比优势：较传统加速计检测（76%-89%）更适应临床噪声环境，且无需重叠患者数据

讨论与展望
该研究首次将迁移学习应用于儿童吞咽音检测，突破传统方法依赖小样本训练的局限。模型对VFSS训练集与临床喂养评估测试集的跨场景适用性，证实其临床转化潜力。值得注意的是，自发唾液吞咽的误检提示未来需整合FEES（纤维内镜吞咽评估）数据完善分类体系。研究者正基于此算法开发结合前期误吸分类器（精度100%）的CA诊断系统，有望推动吞咽障碍筛查在资源匮乏地区的普及。

局限性包括子帧划分策略的优化空间，以及未引入吞咽持续时间等启发式后处理。团队建议后续研究纳入不同稠度流体和奶嘴流速数据，并针对脑瘫等特定人群验证算法鲁棒性。这项发表于《Dysphagia》的成果为数字化CA技术奠定基础，其开源框架（TensorFlow 2.15实现）将加速吞咽障碍诊断技术的迭代发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号