针对资源匮乏的拉贾斯坦语的自动语音识别（ASR）后校正技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：Post-ASR Correction for Low-Resource Rajasthani Language

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　针对低资源语言Rajasthani的ASR系统输出错误问题，提出多视角门控融合的字符级序列到序列模型，通过动态加权融合Whisper和MMS系统输出，在IndicTTS数据集上实现7.86%字符错误率，显著优于单模型及大语言模型。

摘要

最先进的多语言自动语音识别（ASR）模型在应用于像拉贾斯坦语这样的资源匮乏语言时会产生系统性错误，因为这些语言缺乏专门的训练数据。本文通过引入一个后ASR校正框架来应对这一挑战，该框架利用了来自两种不同模型（Whisper-large-v3和MMS-1B-All）的输出中的互补错误模式。我们提出了一个多视图、字符级别的序列到序列（Seq2Seq）模型，该模型使用门控融合机制动态地权衡来自两个ASR输出的信息。在基于IndicTTS Rajasthani语料库创建的新基准测试中，我们的门控模型实现了7.86%的字符错误率（CER）和29.98%的单词错误率（WER）。这一性能优于最佳的单视图基线模型（8.01%的CER和30.33%的WER）、简单的多视图拼接模型（8.21%的CER和30.05%的WER），以及在Whisper和MMS数据上微调的Llama-3.2-3B和mBART-50-large模型。它还在零样本设置中超越了强大的大型语言模型（LLMs），如GPT-4o和Gemini 2.5 Pro。这项工作为拉贾斯坦语的后ASR校正建立了第一个基准，证明了针对这种特定资源匮乏任务的紧凑型专用模型比通用LLMs更有效。

AI总结

AI生成的摘要（实验性）

此摘要是使用自动化工具生成的，并非由文章作者编写或审核。它旨在帮助发现、评估相关性，并帮助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要，后者仍是文章的官方摘要。完整文章是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成的摘要

版本创建于2026年1月24日。

本文提出了一个专门为拉贾斯坦语设计的后ASR校正框架，拉贾斯坦语是一种超过5000万人使用的语种。核心问题是，像Whisper和MMS这样的最先进的多语言自动语音识别模型在应用于缺乏专门训练数据的语言时会产生系统性错误。作者没有改进ASR系统本身，而是提出了一种基于文本的校正层来处理错误的转录文本。

关键创新是一个多视图、字符级别的序列到序列模型，它可以同时处理来自Whisper和MMS系统的输出。首先使用基于Levenshtein距离的动态规划在字符级别对齐这两个ASR系统的输出，考虑了序列长度和结构的差异。这种字符级方法特别适用于天城文（Devanagari）中的错误，因为这些错误通常涉及元音标记、送气符号、鼻音化指示符和词边界合并等问题，这些问题在词级处理中会被忽略。

所提出的架构使用一个共享的编码器，通过双向LSTM处理对齐后的序列的嵌入。关键组件是一个门控融合机制，它学习在每个字符位置动态地权衡每个ASR视图的贡献。这使得模型能够在每一步选择更可靠的来源，而不是平等对待两个输入。解码器实现为带有注意力的单向LSTM，然后生成校正后的字符序列。

在IndicTTS Rajasthani数据集上的实验评估显示了显著的改进。门控LSTM模型的字符错误率为7.86%，单词错误率为29.98%，与任一系统的原始ASR输出相比，相对错误减少了约50%。与简单的拼接基线相比，门控融合机制提供了适度但一致的改进，相对CER提高了4.26%。该模型在零样本和微调设置中显著优于大型替代模型，包括微调的mBART变压器和各种大型语言模型，并且执行速度大约是微调Llama模型的170倍。

消融研究证实，字符级门控比固定的早期融合更有效，复制机制在此任务中表现不佳，而添加融合机制只会带来最小的计算开销。作者还通过在泰米尔语上获得可比的结果，证明了该方法的跨语言适用性，表明其对其他资源匮乏的印度语言也有广泛的相关性。这项工作为拉贾斯坦语的后ASR校正建立了第一个系统性的基准，并展示了如何通过具有适当语言归纳偏见的针对性架构在专门的资源匮乏语言任务中超越通用的大型模型。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号