
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:婴儿哭声副语言分类的进展——方法、实施与应用:系统性综述
【字体: 大 中 小 】 时间:2025年06月06日 来源:JMIR Rehabilitation and Assistive Technologies CS4.2
编辑推荐:
这篇系统性综述全面梳理了近24年婴儿哭声分类领域的方法学进展,重点探讨了机器学习(ML)、深度学习(DL)和混合方法在哭声特征提取(如MFCCs、频谱图)中的应用,揭示了当前研究在数据隐私(如联邦学习)和实际部署(仅10%模型落地)方面的不足,为未来标准化多模态分析和临床转化提供了方向。
婴儿哭声作为早期非语言交流的核心载体,其声学特征(如基频、时长、强度)蕴含丰富的生理与病理信息。传统依赖人工观察的FLACC量表和Neonatal Infant Pain Scale存在主观性强、一致性差等缺陷。随着机器学习技术的渗透,婴儿哭声分析从20世纪60年代Wasz-H?ckert的听觉分类迈入智能算法时代,为新生儿疼痛、饥饿、神经异常等状态的客观识别带来突破。
系统性检索9大数据库(Cochrane、IEEE Xplore等)获得的126项研究显示,2019年后机器学习(91.3%研究采用)和深度学习(最高准确率97.43%)成为主流。特征提取层面,Mel频率倒谱系数(MFCCs)以57.9%采用率居首,其模拟人耳听觉特性的优势在哭声频谱包络建模中表现突出;时频域特征(69%)和频谱图(15.9%)则通过卷积神经网络(CNN)有效捕捉时空模式。值得注意的是,小波变换(8.7%)和韵律特征(0%)尚未充分开发,暗示未来研究可探索多分辨率分析与情感韵律的关联性。
环境噪声(影响78%研究)和样本稀缺(67%研究提及)构成主要瓶颈。新生儿重症监护室(NICU)的设备干扰催生了24.6%研究采用去噪技术,如基于深度学习的谱减法。联邦学习(5%研究应用)虽能解决数据隐私问题,但实际部署率仅10%,多数停留在实验阶段。性能方面,监督学习以99.89%准确率领先,而迁移学习(94.39%)在数据有限场景展现潜力,但无监督方法(75.2%)仍需优化。
30.6%研究聚焦临床诊断,如通过哭声识别败血症早期征兆或神经损伤。然而,模型泛化性受限于数据集地域偏差——亚洲贡献54%研究(主要基于本地样本),欧美则以27.4%占比侧重基础研究。硬件部署中,移动端应用(2.4%)和物联网(IoT,1.6%)占比较低,反映科研成果向床旁转化的滞后性。
构建标准化多模态特征体系(整合MFCCs、波形特征等)、开发自适应去噪层、推进联邦学习框架,是突破现有瓶颈的三维路径。伦理层面需平衡数据共享需求与GDPR合规性,通过TRIPOD报告规范提升研究透明度。正如综述指出,唯有跨学科协作攻克算法鲁棒性与临床适用性,方能实现"哭声即诊断"的精准医疗愿景。
生物通微信公众号
知名企业招聘