基于咳嗽声的声学特征识别:一种轻量化深度学习框架与混合损失函数的创新应用

【字体: 时间:2025年06月03日 来源:Computer Methods and Programs in Biomedicine Update CS5.9

编辑推荐:

  研究人员针对咳嗽声生物识别(CPID)领域模型效率低、泛化性不足的问题,开发了轻量级CoughCueNet网络,结合监督对比学习(SC)与交叉熵(CE)的混合损失函数,在19人数据集上实现97.18%识别准确率,显著优于传统方法,为非言语生物识别在健康监测和安全认证领域提供新范式。

  

在生物识别技术蓬勃发展的今天,语音、人脸等传统模态已广泛应用,但针对非言语声学特征的研究仍存在巨大空白。咳嗽作为人类最常见的生理现象之一,其声学特征蕴含着独特的身份信息,却长期被学术界忽视。现有咳嗽声识别(CPID)研究普遍面临三大瓶颈:模型复杂度高导致部署困难(如ResNet50的24.61M参数)、跨场景泛化能力弱(准确率多徘徊在80-90%)、以及缺乏系统的特征工程研究。更关键的是,医疗场景中言语障碍患者的身份认证需求长期得不到满足,这促使科研人员重新审视咳嗽声的生物识别潜力。

为突破这些限制,来自未知机构的研究团队Van-Thuan Tran、Ting-Hao You和Wei-Ho Tsai在《Computer Methods and Programs in Biomedicine Update》发表创新研究。他们设计出仅含6.41M参数的轻量化CoughCueNet网络,创新性地融合监督对比学习(Supervised Contrastive Learning, SC)与交叉熵(Cross-Entropy, CE)的混合损失函数,在19人咳嗽声数据集上实现97.18%的识别准确率,较传统CE训练提升5.07个百分点。研究还首次系统论证了MFCC特征对CPID的优越性(较频谱图准确率提升6.03%),并通过严格的噪声鲁棒性测试证实SC+CE训练可使模型在-10dB信噪比下保持88.88%的识别率。

关键技术包括:1)构建含4,373个样本的咳嗽声数据集,采用基于录音会话的五折交叉验证防止数据泄露;2)开发混合卷积循环神经网络(CoughCueNet),结合2D卷积与全局平均池化(GAP)提取时空特征;3)创新性应用SC+CE混合损失函数,通过投影网络(Proj(·))构建128维对比学习空间;4)设计四重数据增强策略(时移、变速、加噪、特征掩码);5)采用t-SNE可视化验证特征可分性提升。

研究结果揭示多项重要发现:
【数据特性】通过对比语音训练模型在咳嗽测试集的灾难性失效(准确率仅5.52-14.14%),证实咳嗽声具有独立于语音的身份特征,需专用模型开发。
【架构优化】轻量化CoughCueNet仅用42.8%的参数量即达到VGG16的92.89%基准准确率,SC+CE训练后更以97.18%超越所有基线模型,证明网络紧凑化与训练策略创新的双重价值。
【特征工程】MFCC特征在所有模型中表现最优,39维MFCC+Delta组合较128维频谱图平均提升5.34%准确率,为CPID特征选择提供明确指导。
【鲁棒性验证】在混合噪声测试中,SC+CE训练的模型在+10dB至-10dB区间仅衰减8.62个百分点,而CE模型衰减达14.02个百分点,凸显对比学习对模型泛化的促进作用。
【错误分析】混淆矩阵显示特定受试者(ID 08)的咳嗽声与语音特征高度相似(66-73%跨模态识别率),暗示个体生物声学特征的独特性存在差异。

这项研究的意义不仅在于技术指标的突破,更开辟了非言语生物识别的新方向。其价值体现在:1)为言语障碍患者提供无障碍身份认证方案;2)轻量化模型(<7M参数)适配移动健康设备部署需求;3)SC+CE框架为小样本生物特征学习提供新范式;4)发现咳嗽与语音声学特征的弱相关性,推翻"声纹通用性"假设。未来研究可沿三个方向拓展:扩大受试者规模验证普适性、探索多模态生物特征融合、以及开发边缘计算友好的模型压缩技术。这项成果标志着生物识别技术从主动式(需配合发音)向被动式(自然生理声)的重要转变,为智慧医疗和普适计算奠定关键技术基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号