
-
生物通官微
陪你抓住生命科技
跳动的脉搏
针对医疗应用的增强型多模态语音处理:一种深度融合方法
《IEEE Journal of Selected Topics in Signal Processing》:Enhanced Multimodal Speech Processing for Healthcare Applications: A Deep Fusion Approach
【字体: 大 中 小 】 时间:2025年11月20日 来源:IEEE Journal of Selected Topics in Signal Processing 13.7
编辑推荐:
医疗环境中视听融合语音增强模型通过整合医疗视频接口采集的唇部动作等视觉信号与自适应多模态融合算法,结合基于医疗术语保留率的创新损失函数,在-5dB低信噪比下实现2.45 PESQ评分,较现有方法提升25%,同时保持93.18%的医疗术语准确率。
在医疗环境中,语音交流至关重要,尤其是在患者评估、诊断、治疗、语音控制设备以及远程医疗服务中[1]、[2]、[3]。先前的研究表明,语音消息的质量对患者护理、治疗活动以及整个医疗系统都至关重要[4]、[5]。不幸的是,临床环境中的语音交流质量经常受到医疗设备产生的噪声、周围其他声音以及其他人说话的影响[6]。这在医疗环境中的人与人以及人机交互中构成了重大障碍。仅使用声学信息进行语音增强的传统方法在高度嘈杂的环境中(尤其是医院环境中,周围噪声较大且声音来源众多时)表现不佳[7]、[8]。仅依赖音频方法的局限性促使学者们研究整合听觉和视觉数据的多模态替代方案。在医疗环境中,这种整合尤为重要,因为诸如嘴唇动作、面部表情和手势等视觉指标可以为听觉信号提供重要的补充信息。将这两种模式(音频和视觉)结合起来,为医疗环境中的语音增强奠定了更坚实的基础。
生物通微信公众号
知名企业招聘