一种轻量级的深度学习系统，用于识别婴儿的啼哭声，并在资源受限的环境中实现实时通知

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Machine Learning with Applications》：Lightweight Deep Learning System for Infant-Cry Recognition with Real-Time Notification in Resource-Constrained Environments

【字体：大中小】 时间：2025年11月13日 来源：Machine Learning with Applications 4.9

编辑推荐：

　　婴儿哭声检测系统采用YAMNet转移嵌入和轻量级CNN模型，结合Flask微服务与WhatsApp API实现实时通知。在Raspberry Pi 4B上，系统以<0.8秒延迟处理5秒音频窗口，F1分数达93%，显著优于MLP和随机森林，并通过数据增强和设备异构验证提升鲁棒性。

　　婴儿哭声识别与实时监测系统是近年来在婴儿安全领域的一项重要进展。婴儿的哭声不仅是一种表达不适的信号，更是一种复杂的声音语言，能够传递饥饿、疼痛、疾病或情绪波动等信息。然而，在现实环境中，父母和护理人员很难持续监控婴儿的状态，而市面上的婴儿监护设备往往不够可靠，容易在噪音干扰下产生误报。为了应对这一挑战，研究者提出了一种轻量级的深度学习系统，该系统结合了YAMNet迁移学习嵌入和一个紧凑的卷积神经网络（CNN），并通过Flask微服务连接到WhatsApp，实现对护理人员的实时警报。

该系统能够在资源有限的环境下运行，如使用Raspberry Pi 4B进行部署。在9,000个音频片段的训练数据集上，该CNN达到了95.2%的准确率、0.93的F1分数和0.96的ROC-AUC，优于传统的MLP和随机森林模型。从音频捕捉到消息发送的延迟保持在0.8秒以内，即使在背景噪音存在的情况下，系统仍能保持良好的性能。这种结合深度音频迁移学习、物联网通信和即时消息传递的方法，为婴儿哭声识别提供了一种新颖、可复制且低成本的智能监测方案，特别适用于资源受限的环境。

本研究的主要贡献包括以下几个方面：首先，提出了一种结合YAMNet嵌入和三种分类器（CNN、MLP和随机森林）的轻量级处理流程，以实现稳健的哭声识别。其次，通过大量数据增强和自然条件下采集的本地音频数据，提高了在嘈杂家庭环境中的性能。第三，构建了一个实时的护理人员警报系统，通过WhatsApp API和Flask微服务实现，使父母能够立即响应。第四，实现了在低成本嵌入式硬件上的可行性，如Raspberry Pi 4B，为资源有限环境下的部署提供了可能。

本研究的成果有助于开发更便宜、更智能的健康监测工具，从而改善婴儿的安全性和护理人员的响应能力。尽管YAMNet和CNN模型通常用于一般的音频识别，但本研究在多个方面进行了扩展。首先，引入了指数移动平均（EMA）和滞后平滑机制，以稳定预测并减少日常环境中的误报。其次，将深度音频推理与基于物联网的通知层相结合，通过Flask微服务和WhatsApp API实现即时通知。第三，将提出的CNN模型量化并部署为TensorFlow Lite模型，使Raspberry Pi 4B能够在0.8秒内完成推理，而不会损失准确性。这些元素使系统不同于以往基于YAMNet的研究，结合了稳健的时间逻辑、实时通信和高效的嵌入式部署。这种澄清突出了系统在方法论上的进步，使其成为基于YAMNet研究中的创新。

本文的其余部分组织如下：第二部分回顾了婴儿哭声识别和嵌入手势识别的相关工作。第三部分描述了数据集、预处理和模型设计。第四部分展示了实验结果和讨论。最后，第五部分总结了研究，并提出了未来的研究方向。

婴儿哭声识别的研究从手动制作的声学特征和传统分类器，发展到直接学习频谱-时间模式的高级系统。早期的机器学习算法，如支持向量机（SVM）和使用梅尔频谱特征或其变种的SVM，虽然在实验室中表现良好，但面对噪声和域迁移（如临床与家庭环境之间的差异）时较为脆弱。例如，Sahak等人（2010）使用SVM-PCA流程来识别窒息哭声，Chang等人（2017）使用DAG-SVM模型和特征选择。尽管这些方法在实验室中表现良好，但缺乏在实际环境中的验证。

深度学习的出现显著提高了识别的准确性和鲁棒性。Xie等人（2021）开发了一种基于频谱图的CNN用于家庭环境的持续监控，而Lahmiri等人（2022）评估了DFFNN、LSTM和CNN的变种用于病理分类，认为CNN通常是最稳健的。Liang等人（2022）结合CNN和LSTM在梅尔频谱特征上，达到了95%的准确率，并在健康和生病的分类上提高了召回率。现代调查和比较分析也表明，基于时间频率输入的CNN家族模型优于传统特征集和经典机器学习技术的组合。

近年来，研究还强调了外部有效性和实现。Yao等人（2022）使用全天候的自然音频评估模型，而Micheletti等人（2023）在行为科学环境中验证了哭声检测器，强调了在真实世界噪声和类别不平衡条件下的校准和性能。同时，新的设计，如SE-ResNet和Transformer块，仍在通过迁移学习和注意力机制提高哭声类型识别。Li等人（2024）明确结合SE-ResNet和Transformer块进行婴儿哭声分类，展示了注意力和迁移学习如何提高哭声任务的准确性。Mekhfioui等人（2025）引入了一种基于Raspberry Pi的嵌入式系统，用于识别婴儿哭声，并提供实时输入给护理人员，从而验证了该系统在资源有限环境中的实用性。

本研究在这一轨迹上进行了扩展，利用YAMNet迁移嵌入和轻量级分类器（CNN/MLP/RF），并重点进行部署评估：设备端的TFLite推理、基于时间的平滑处理和WhatsApp通知，以及校准分析（ECE/Brier）。这一混合设计确保了系统对家庭声学多样性和设备异构性的适应能力。完整的预处理数据集包含9,000个标记样本，以及元数据和基于YAMNet的预处理脚本，存储在专门的Kaggle仓库中。

预处理是在描述的数据集基础上进行的，通过标准化流程设计来平衡信号保真度和计算效率。原始音频被重采样为16 kHz单声道，然后分割成固定的5秒窗口（需要裁剪或零填充）。峰值归一化确保了幅度的统一缩放，低质量或损坏的音频片段通过5 dB的信噪比（SNR）阈值进行过滤。为了提高模型的鲁棒性，随机增强被应用于每个训练项，概率为50%，将有效训练集扩展到约12,000个可用样本。增强技术包括音高变换（±2个半音）、时间拉伸（0.9–1.1倍）和添加从开放声学库（如ESC-50和UrbanSound8K）采样的背景噪声。每种增强技术都被选择来模拟现实世界声学变化的一个特定方面：音高变换考虑了婴儿发声音高的生理差异，时间拉伸模拟了自然的哭声节奏和持续时间的变化，背景噪声增强了对常见家庭背景干扰的鲁棒性。

所有预处理操作均使用Python（v3.10）实现，依赖于Librosa、NumPy和TensorFlow AudioOps。完整的流程，包括脚本、配置文件和详细文档，可在开放访问的仓库中找到。

特征提取方面，作者采用了基于YAMNet的迁移学习，而非手工制作的特征（如梅尔频谱系数）。YAMNet是一个在AudioSet上预训练的卷积网络，它将波形转换为对数梅尔频谱图，并通过深度可分离卷积生成1024维嵌入。对于每个5秒的音频片段，帧级嵌入通过时间上的均值池化，得到每个片段的固定大小向量。这种方法利用了从多样声学事件中学习到的广泛声学先验知识，提高了对噪声的鲁棒性，减少了对大规模任务特定训练数据的需求。

模型设计方面，作者评估了YAMNet嵌入，使用三种基于不同学习范式的分类器进行全面评估。这种方法提供了一个密集网络的基线，使用多层感知机（MLP）作为轻量级、低延迟的非卷积基线，测试了1D卷积神经网络（CNN）在本地时间结构建模上的价值，并使用随机森林（RF）作为高可解释性、非线性方法进行评估。这些模型的选择基于其在不同任务中的优势，同时保持了可解释性、准确性和延迟之间的平衡。

通过消融研究，作者比较了YAMNet迁移学习与传统的梅尔频谱和MFCC基线，以量化迁移学习对分类性能的贡献。研究者设计了一种消融协议，评估了三种特征提取策略在相同训练设置下的表现：一种是直接在原始梅尔频谱图上训练的CNN，一种是使用梅尔频谱系数（MFCC）作为输入特征的CNN，以及一种使用从AudioSet导出的预训练YAMNet嵌入的CNN。这种设计明确了迁移学习对性能提升的具体贡献，而非模型调优或数据增强。

为了支持计算效率，研究者采用了类似3D Hahn-Krawtchouk方法的可分离矩表示，如Tahiri等人（2020）提出的方法，提供了快速和稳定重建的理论基础，这与我们减少推理延迟和模型大小的目标一致。此外，基于变换的混合优化，如DWT-SVD系统与算术优化算法（Bencherqui等人，2024）的结合，支持我们的量化策略，以实现最优的鲁棒性-效率权衡。

训练配置和超参数调优方面，所有模型使用相同的设置进行训练，以确保公平比较。训练在Python 3.10和TensorFlow 2.12上进行，使用Adam优化器和交叉熵损失。超参数通过在验证集上的网格搜索选择，以平衡准确性和计算成本。所有模型（CNN、MLP、RF和消融变种）均在相同的数据分割、随机种子和评估协议下进行训练和评估，以确保公平比较。对于深度学习模型（CNN、MLP），训练使用了表1中列出的超参数，而RF则遵循标准的scikit-learn默认值（100个估计器，最大深度=自动，随机状态=42）。

早期停止是基于验证F1分数，而非准确率或损失，因为F1更能体现错过哭声和误报之间的平衡。这种标准确保了收敛的稳定性，防止了过拟合，并在不同噪声条件下保持了召回的一致性。所有消融变种（原始、MFCC和YAMNet）均使用相同的超参数，确保性能差异仅来源于特征表示，而非训练条件。

统计验证程序方面，为了确保模型比较的稳健性和可靠性，研究者将统计显著性测试纳入评估协议。对于每个模型（CNN、MLP和RF），进行了五折交叉验证，并记录了F1分数和ROC-AUC值。随后，通过配对t检验和Wilcoxon符号秩检验，测试了CNN与MLP性能之间的差异。配对t检验评估了两个相关样本（这里，CNN和MLP在相同折叠下的得分）的均值差异是否显著不同于零，假设正态分布。Wilcoxon检验提供了当这一假设可能不成立时的非参数替代。这些测试均在显著性水平α=0.05下进行，遵循深度学习可复制性研究中的建立实践。

这些验证步骤确保了观察到的性能提升是统计有意义的，而不是由于随机数据分割。这种统计验证步骤确保了模型性能差异不是由于随机波动，而是反映了真实的方法论改进。

创新性澄清方面，尽管基于YAMNet和CNN的模型在音频分类中已被广泛应用，但本研究引入了几个显著的创新。这里，YAMNet嵌入被优先考虑，因为大规模音频预训练（AudioSet）在噪声环境下提供了鲁棒的表示，并在有限标记数据中表现出强大的跨域泛化能力。CNN架构被选择用于在资源受限硬件上进行高效的时序模式捕捉，同时保持低计算成本。

EMA和滞后机制被纳入以减少误报和稳定连续预测。首先，系统整合EMA和基于滞后的决策平滑，以最小化连续监控中的时间波动和误报。其次，将深度音频推理与基于物联网的通知层相结合，通过连接到WhatsApp API的Flask微服务，实现即时护理人员通知。第三，提出的CNN被量化并部署为TensorFlow Lite模型，使其在Raspberry Pi 4B上实现低于0.8秒的推理延迟，同时保持高准确性。

这些方法论和部署导向的增强将以往基于YAMNet的研究从离线识别系统转变为一个完全运行的、实时的、适用于资源有限环境的边缘AI解决方案。

评估指标方面，作者使用了依赖阈值的指标（在决策阈值τ下计算）和不依赖阈值的摘要（曲线/面积），并辅以校准和不确定性估计。TP、FP、TN、FN分别表示在保留测试集上的真正/假正/真正/假负。因此，计算了以下指标：准确率、精确度、召回率、F1分数、AUC，以及在类别不平衡下的特定性。此外，作者还计算了平衡准确率和马修斯相关系数（MCC），以在类别不平衡下提供稳健的评估。

作者绘制了ROC曲线并报告了ROC-AUC（在所有τ下的区分能力）。由于正类（哭声）可能较为罕见，我们还包括了精确度-召回曲线和PR-AUC，这些在数据分布倾斜时更具信息性。为了评估概率质量（不仅排名），他们计算了Brier分数并报告了预期校准误差（ECE）与可靠性图；良好的校准概率值使得阈值调整和后续警报逻辑更加可靠。

操作阈值τ*是在验证集上选择以最大化F1，Youden’s J（TPR - FPR）用于平局或敏感性分析。作者报告了关键指标的95%置信区间，通过分层抽样（1,000次重采样）的测试集。为了稳定实时输出并减少误报，作者使用EMA对哭声概率进行平滑处理。当概率值达到τ时，才会触发警报，且警报仅在K个连续窗口后才发送。这种设计引入了可控的精确度-延迟权衡：更大的α和K会减少误报，但会略微延长检测时间。因此，作者报告了基于片段的指标和事件级度量（如警报精确度和首次警报时间），以反映最终用户体验。

硬件和部署方面，训练/评估在配备NVIDIA RTX 3060（12 GB）的工作站上进行。最佳模型（CNN）被导出为TensorFlow Lite，并部署在Raspberry Pi 4B（4 GB RAM）上。平均推理时间约为每5秒窗口120毫秒，端到端延迟（捕捉→推理→通过Flask API发送WhatsApp通知）保持在0.8秒以下，支持在受限资源下的实时婴儿监测。

伪代码方面，作者设计了一个步骤式算法，将音频预处理、特征提取、模型训练和实时警报集成。伪代码（算法1）概述了整个流程，从音频输入/输出流和预训练YAMNet嵌入的初始化，到候选分类器（MLP、CNN和随机森林）的训练和评估，再到在基于Flask的微服务（带WhatsApp通知支持）上的部署。训练阶段利用了交叉验证和广泛的数据增强，早期停止和基于F1分数和ROC-AUC的模型选择。最终系统整合了TensorFlow Lite转换以实现设备端推理，EMA平滑以获得稳健的概率估计，以及滞后计数器以减少误报。该伪代码作为实施的高级蓝图，使实施既可复制又透明。

系统架构方面，整体系统架构在图4中展示。该图展示了从音频获取到护理人员通知的完整工作流程。离线训练阶段包括音频预处理、YAMNet嵌入提取、分类器训练（交叉验证和增强）以及转换为TensorFlow Lite。在线推理阶段在Raspberry Pi 4B上运行，通过EMA平滑和滞后进行实时检测，并通过集成到WhatsApp的Flask微服务发送警报。该架构将深度音频特征学习与物联网通信结合，用于在资源受限环境中的可靠监测。

伦理和数据保护方面，所有程序均遵守涉及人类受试者的机构和国际伦理指南。伦理批准由Université de l’Assomption au Congo伦理审查委员会（UAC-ERC/2024/017）授予。父母或监护人被充分告知研究的目标、录音程序和音频数据的学术用途。在任何录音之前获得书面同意，参与者被告知可以在任何阶段退出而不会受到任何后果。

为了保护隐私，所有本地录制的文件均通过移除个人标识符和元数据进行匿名化处理。音频文件名被随机编码（例如pleurs_1.wav、autres_3.wav）并存储在一个加密目录中，只有授权的研究人员才能访问。该数据集在GDPR合规的数据处理实践中处理，确保了保密性和受控访问。对于通信安全，基于WhatsApp的警报功能使用了一个单向通知协议，通过官方的CallMeBot API，该协议不会在外部服务器上保留消息日志或用户凭证。没有个人信息、音频内容或可识别数据通过消息服务传输。只有警报时间戳和类别标签（哭声/非哭声）通过HTTPS和SSL/TLS加密发送。

未来版本中，系统将集成端到端加密和可定制的警报通道，以进一步增强隐私和用户控制。

消融研究方面，为了进一步验证迁移学习的有效性，进行了消融研究。该实验通过比较所提出的CNN模型与两种基础特征提取方法（原始梅尔频谱图和MFCC），隔离了YAMNet嵌入的贡献。所有模型共享相同的架构、超参数和训练协议，确保了特征表示质量的公平评估。

迁移学习使用YAMNet嵌入显著提高了准确率（相对于MFCC和原始音频CNN提高2.5%）和鲁棒性（ROC-AUC=0.96 vs 0.91），同时保持计算成本相近。这确认了预训练音频嵌入在真实世界噪声条件下的优势。

统计验证方面，为了验证CNN相对于MLP的性能优势不是由于随机变化，作者对五次验证折叠中的F1分数和ROC-AUC值进行了配对统计测试。对于每个指标，使用分层抽样（B=10000）计算了95%置信区间。配对t检验和Wilcoxon符号秩检验（双尾，α=0.05）应用于折叠间的差异。结果显示，CNN在F1分数（均值F1=0.93±0.01；95%置信区间[0.91,0.94]）上表现出一致且统计显著的优势，而MLP的均值F1=0.89±0.02；95%置信区间[0.86,0.91]。配对t检验得到p=0.012，非参数Wilcoxon检验确认了显著性（p=0.016）。这些发现表明，CNN的卓越性能是统计稳健的，不太可能因随机抽样变化而产生。

在部署和可扩展性方面，部署实验在Raspberry Pi 4B（4 GB RAM，四核Cortex-A72，Raspbian操作系统）上进行，以评估计算效率、功耗和可扩展性。经过TensorFlow-Lite转换和后训练量化后，CNN模型在内存中占用8.6 MB（与量化前的27 MB相比），每5秒推理窗口仅需120毫秒，使得从音频捕捉到护理人员通知的端到端延迟低于0.8秒。相比之下，模型大小和参数计数为：CNN≈210,000个参数（8.6 MB量化），MLP≈185,000个参数（7.2 MB量化），随机森林≈0.9 MB（序列化100棵树）。这些值确认了所有三个模型的轻量级特性，特别是CNN在边缘部署中的优化。

量化将模型的浮点运算减少了约3倍，同时几乎没有准确率损失（F1分数损失<0.3%）。进一步的优化，如结构化剪枝、知识蒸馏或硬件加速（Coral TPU、NVIDIA Jetson Nano），可以在不改变系统设计的情况下提高吞吐量或能效。这些扩展目前正考虑用于现场部署和连续监测场景。量化和剪枝设计背后的原理与信号和图像分析中的更广泛的优化范式一致。使用基于矩的描述符的研究表明，可分离性和正交性可以产生紧凑但具有区分力的特征集，适用于实时系统。同样，集成启发式优化算法，如AOA或基于萤火虫的调整，表明混合优化可以在不增加计算量的情况下保持鲁棒性。

这些相似之处加强了优化导向架构在高效AI部署中的普遍适用性，无论是在图像重建、生物医学分析还是声学识别中。

从可扩展性来看，系统架构支持通过网络化的边缘设备报告到共享的Flask监测中心进行水平扩展，使得在医院或托儿所环境中可以同时监督多个婴儿。除了后训练量化外，还进一步研究了其他优化技术以验证轻量级主张。初步实验使用量化感知训练（QAT）和结构化剪枝（移除20–30%的低幅度权重）得到的模型具有几乎相同的准确率（F1分数差异≤0.5%），同时减少了参数计数达25%。这些结果确认了CNN可以在不显著损失准确率的情况下进一步压缩。QAT和剪枝因此代表了提高嵌入式设备（如Raspberry Pi 4B或Jetson Nano）上能效和推理速度的有前途的下一步优化。后训练与量化感知方法的详细比较将在未来工作中探讨。

未来工作将专注于哭声类型的多类分类，通过丰富数据集的标记情感或生理元数据，并利用基于注意力的CNN-BiLSTM架构进行时序推理，以区分疼痛、饥饿和不适的信号。这样的发展将使系统能够实现更细粒度和情境感知的警报，朝着完整的智能婴儿护理框架迈进。

综上所述，本研究设计并测试了一种轻量级的婴儿哭声识别原型，该原型结合了YAMNet迁移嵌入、紧凑的CNN分类器和基于EMA和滞后的简单后处理方案。模型在Raspberry Pi 4B上运行，端到端延迟低于0.8秒，达到了0.93的F1分数和0.96的AUC。这些结果表明，即使在廉价的嵌入式硬件上，也可以实现可靠的检测，使得这种方法适用于日常家庭监测。

除了数值结果外，该研究还提供了一个实用且可复制的框架，将机器学习推理与通过WhatsApp消息的即时护理人员响应相结合。它证明了在现实世界的噪声和硬件限制下，可以保持临床意义的准确率，表明了一个现实的早期预警和远程护理应用方向。未来的研究将从二元检测转向哭声类型的多类分类，探索在相似计算限制下的Transformer或自监督音频模型，并包括前瞻性临床验证。进一步的研究还可以关注剪枝、整数量化和专用边缘加速器，以进一步降低延迟和功耗，同时保持校准和不确定性估计作为标准性能报告的一部分。

数据和代码可用性方面，支持本研究发现的数据集和实现资源是公开的。UAC-Butembo婴儿哭声数据集可通过Kaggle访问：https://www.kaggle.com/datasets/staniherstaniher/uac-butembo-infant-cry。完整的源代码，包括预处理脚本、特征提取模块、模型训练代码和配置文件，可在GitHub上公开访问：https://github.com/staniher/infantCryDetectionButembo。数据集和代码均采用知识共享署名4.0国际（CC BY 4.0）许可证，确保了开放科学的可复制性和可重用性。

作者贡献方面，研究者各自在不同方面做出了贡献：Nsenge Mpia Héritier负责概念化、方法、软件、验证、正式分析、调查、撰写初稿、可视化、监督和项目管理；Mumbere Kavalami Muyisa负责模型部署、数据整理、资源、撰写、审阅和编辑；Kasereka Lusenge Grace负责方法、验证、撰写、审阅和编辑；Kakule Ushindi Pascal负责资源、审阅和编辑；Kambale Kyalengekania Dieu-Donné负责资源、审阅和编辑；Muzembe Ciswaka Olivier负责数据整理、资源、撰写、审阅和编辑。

未引用的参考文献方面，Bencherqui等人（2023）的研究未被引用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号