
-
生物通官微
陪你抓住生命科技
跳动的脉搏
针对资源匮乏的拉贾斯坦语的自动语音识别(ASR)后校正技术
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Post-ASR Correction for Low-Resource Rajasthani Language
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
针对低资源语言Rajasthani的ASR系统输出错误问题,提出多视角门控融合的字符级序列到序列模型,通过动态加权融合Whisper和MMS系统输出,在IndicTTS数据集上实现7.86%字符错误率,显著优于单模型及大语言模型。
此摘要是使用自动化工具生成的,并非由文章作者编写或审核。它旨在帮助发现、评估相关性,并帮助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要,后者仍是文章的官方摘要。完整文章是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI生成的摘要
版本创建于2026年1月24日。
本文提出了一个专门为拉贾斯坦语设计的后ASR校正框架,拉贾斯坦语是一种超过5000万人使用的语种。核心问题是,像Whisper和MMS这样的最先进的多语言自动语音识别模型在应用于缺乏专门训练数据的语言时会产生系统性错误。作者没有改进ASR系统本身,而是提出了一种基于文本的校正层来处理错误的转录文本。
关键创新是一个多视图、字符级别的序列到序列模型,它可以同时处理来自Whisper和MMS系统的输出。首先使用基于Levenshtein距离的动态规划在字符级别对齐这两个ASR系统的输出,考虑了序列长度和结构的差异。这种字符级方法特别适用于天城文(Devanagari)中的错误,因为这些错误通常涉及元音标记、送气符号、鼻音化指示符和词边界合并等问题,这些问题在词级处理中会被忽略。
所提出的架构使用一个共享的编码器,通过双向LSTM处理对齐后的序列的嵌入。关键组件是一个门控融合机制,它学习在每个字符位置动态地权衡每个ASR视图的贡献。这使得模型能够在每一步选择更可靠的来源,而不是平等对待两个输入。解码器实现为带有注意力的单向LSTM,然后生成校正后的字符序列。
在IndicTTS Rajasthani数据集上的实验评估显示了显著的改进。门控LSTM模型的字符错误率为7.86%,单词错误率为29.98%,与任一系统的原始ASR输出相比,相对错误减少了约50%。与简单的拼接基线相比,门控融合机制提供了适度但一致的改进,相对CER提高了4.26%。该模型在零样本和微调设置中显著优于大型替代模型,包括微调的mBART变压器和各种大型语言模型,并且执行速度大约是微调Llama模型的170倍。
消融研究证实,字符级门控比固定的早期融合更有效,复制机制在此任务中表现不佳,而添加融合机制只会带来最小的计算开销。作者还通过在泰米尔语上获得可比的结果,证明了该方法的跨语言适用性,表明其对其他资源匮乏的印度语言也有广泛的相关性。这项工作为拉贾斯坦语的后ASR校正建立了第一个系统性的基准,并展示了如何通过具有适当语言归纳偏见的针对性架构在专门的资源匮乏语言任务中超越通用的大型模型。
生物通微信公众号
知名企业招聘