基于深度神经网络的中文和英文混合语音识别技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：Deep Neural Network-based Mixed Speech Recognition Technology for Chinese and English

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　中英混合语音识别系统通过融合DNN架构、注意力机制与CTC损失函数，构建端到端Transformer模型，显著提升中英混合语音的识别准确率至81.2%和速度至100字/分钟。

摘要

在人机交互领域，目前较为先进的语音识别系统都是单一语言的语音识别系统，因此迫切需要采用新的深度学习技术来改进现有的语音识别系统。基于这一背景，本研究以深度神经网络（DNN）为基础，探索了中文和英文混合语音识别技术。首先研究了一种基于DNN的单一语言语音识别算法，然后通过融合注意力机制和CTC（Connectionist Text Classification）损失函数，构建了一种新的中文和英文混合语音识别模型。在构建该混合语音识别模型时，采用了端到端模型和Transformer框架，利用CTC损失函数的单调对齐特性，将复杂的音素转换为字符，以便于提取和识别。通过在中文语音数据集、英文语音数据集以及中文和英文混合语音数据集上对构建的模型进行测试，评估了这些模型的识别准确率和识别速度。结果表明，所提出的模型在中文-英文混合语音数据集上的识别准确率达到81.2%，识别速度达到每分钟100个单词，远优于其他三种模型。本研究通过引入一种新颖的中文-英文混合语音识别混合模型，成功满足了改进语音识别系统的需求。实验结果证实了该模型的优越性，实现了高准确率和快速识别速度。该模型在提升人机交互效果以及促进中文和英文使用者之间的高效沟通方面具有巨大潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号