基于深度神经网络的中文和英文混合语音识别技术
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Deep Neural Network-based Mixed Speech Recognition Technology for Chinese and English
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
中英混合语音识别系统通过融合DNN架构、注意力机制与CTC损失函数,构建端到端Transformer模型,显著提升中英混合语音的识别准确率至81.2%和速度至100字/分钟。
摘要
在人机交互领域,目前较为先进的语音识别系统都是单一语言的语音识别系统,因此迫切需要采用新的深度学习技术来改进现有的语音识别系统。基于这一背景,本研究以深度神经网络(DNN)为基础,探索了中文和英文混合语音识别技术。首先研究了一种基于DNN的单一语言语音识别算法,然后通过融合注意力机制和CTC(Connectionist Text Classification)损失函数,构建了一种新的中文和英文混合语音识别模型。在构建该混合语音识别模型时,采用了端到端模型和Transformer框架,利用CTC损失函数的单调对齐特性,将复杂的音素转换为字符,以便于提取和识别。通过在中文语音数据集、英文语音数据集以及中文和英文混合语音数据集上对构建的模型进行测试,评估了这些模型的识别准确率和识别速度。结果表明,所提出的模型在中文-英文混合语音数据集上的识别准确率达到81.2%,识别速度达到每分钟100个单词,远优于其他三种模型。本研究通过引入一种新颖的中文-英文混合语音识别混合模型,成功满足了改进语音识别系统的需求。实验结果证实了该模型的优越性,实现了高准确率和快速识别速度。该模型在提升人机交互效果以及促进中文和英文使用者之间的高效沟通方面具有巨大潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号