针对医疗应用的增强型多模态语音处理：一种深度融合方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Selected Topics in Signal Processing》：Enhanced Multimodal Speech Processing for Healthcare Applications: A Deep Fusion Approach

【字体：大中小】 时间：2025年11月20日 来源：IEEE Journal of Selected Topics in Signal Processing 13.7

编辑推荐：

　　医疗环境中视听融合语音增强模型通过整合医疗视频接口采集的唇部动作等视觉信号与自适应多模态融合算法，结合基于医疗术语保留率的创新损失函数，在-5dB低信噪比下实现2.45 PESQ评分，较现有方法提升25%，同时保持93.18%的医疗术语准确率。

摘要：

在医疗环境中，交流有时会受到环境噪声的影响，导致关键信息可能被误解。我们提出了医疗音视频深度融合（HAV-DF）模型，这是一种创新方法，通过智能合并声学和视觉数据来提高临床环境中的语音理解能力。HAV-DF模型有三个关键改进之处：首先，它使用医疗视频接口收集与医疗交流相关的细微视觉信号；其次，它采用先进的多模态融合方法，根据噪声情况动态调整听觉和视觉数据的整合方式；最后，它使用一种创新的损失函数，结合医疗特定指标来优化语音质量。在MedDialog和MedVidQA数据集上的实验结果表明，该模型在各种噪声环境下都能有效提升交流效果。在信噪比（SNR）较低（-5dB）的情况下，HAV-DF的PESQ评分为2.45，比现有方法高出25%。在声学条件较差的情况下，该模型的医学术语保留率达到了93.18%，显著优于现有方法。这些改进使得从急诊科到远程医疗咨询等多种治疗场景中的交流更加可靠。

引言

在医疗环境中，语音交流至关重要，尤其是在患者评估、诊断、治疗、语音控制设备以及远程医疗服务中[1]、[2]、[3]。先前的研究表明，语音消息的质量对患者护理、治疗活动以及整个医疗系统都至关重要[4]、[5]。不幸的是，临床环境中的语音交流质量经常受到医疗设备产生的噪声、周围其他声音以及其他人说话的影响[6]。这在医疗环境中的人与人以及人机交互中构成了重大障碍。仅使用声学信息进行语音增强的传统方法在高度嘈杂的环境中（尤其是医院环境中，周围噪声较大且声音来源众多时）表现不佳[7]、[8]。仅依赖音频方法的局限性促使学者们研究整合听觉和视觉数据的多模态替代方案。在医疗环境中，这种整合尤为重要，因为诸如嘴唇动作、面部表情和手势等视觉指标可以为听觉信号提供重要的补充信息。将这两种模式（音频和视觉）结合起来，为医疗环境中的语音增强奠定了更坚实的基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号