《Big Data and Cognitive Computing》:Context-Oriented Method for Resolving Lexical Ambiguities in Speech Synthesis for a Low-Resource Language
编辑推荐:
语音合成中的歧义消解是文本到语音转换的主要挑战之一。机器学习方法和人工神经网络已成功应用于英语、西班牙语和其他常见语言的合成系统中。对于低资源语言,可用数据不足以训练人工神经网络,因此应使用启发式方法进行上下文分析并选择多义词的正确同形异义词。本研究旨在为低资
语音合成中的歧义消解是文本到语音转换的主要挑战之一。机器学习方法和人工神经网络已成功应用于英语、西班牙语和其他常见语言的合成系统中。对于低资源语言,可用数据不足以训练人工神经网络,因此应使用启发式方法进行上下文分析并选择多义词的正确同形异义词。本研究旨在为低资源车臣语开发一种词义消歧(WSD)方法,并将其引入语音合成系统。研究人员介绍了所开发的方法和三种算法:AWEN(基于欧几里得距离)、AWA(加权平均)和AWN(加权归一化距离),用于词义消歧。研究人员编译了一个车臣语文本语料库CheWSData,包含15,035个手动选择的句子,这些句子源自500万个标注词,反映了跨语法类别的多义性自然频率。实验结果表明,所提出的AWN方法性能最佳,F1分数为0.78,准确率为0.80,优于AWA(F1:0.74)和AWEN(F1:0.40)。对于特定词性,AWN对名词的F1分数达到0.82,动词为0.83,副词为0.85。与现有低资源语言(克什米尔语、豪萨语、阿萨姆语、乌尔都语和越南语)的WSD方法比较分析表明,AWN具有竞争力,排名第二,仅次于ViConBERT(F1:0.87),领先于豪萨语的XLM-R(F1:0.79)。开发的同形异义词识别软件模块已集成到车臣语音合成系统中,有助于生成更自然的合成语音。
研究人员在低资源语言语音合成领域面临词汇歧义(lexical ambiguity)这一核心挑战。现有机器学习与人工神经网络方法在英语、中文等常见语言中表现良好,但对车臣语等低资源语言,可用训练数据严重不足,无法有效训练神经网络模型。因此,开发一种不依赖大量标注数据的上下文启发式词义消歧(word sense disambiguation, WSD)方法成为必要。本研究旨在为车臣语设计一种面向上下文的方法,以消除同形异义词(homograph)在语音合成中的歧义,并将该软件模块集成至文本到语音(text-to-speech, TTS)系统中,提升合成语音的自然度。相关成果发表在《Big Data and Cognitive Computing》。
为开展研究,研究人员首先构建了一个车臣语文本语料库CheWSData,该语料库源自500万标注词,经手动筛选得到15,035个句子,覆盖100个高频同形异义词,并按词性(动词52%、名词37%、形容词8%、副词1%等)自然分布。核心方法为一种位置共现评估方法,通过计算词向量间的加权距离来判定同形异义词的具体含义。基于该方法,研究人员设计了三种算法:AWEN(基于欧几里得距离度量,将句子转换为向量后计算平均距离)、AWA(基于加权平均,对上下文标签词进行索引并计算权重)、AWN(基于加权归一化距离,考虑上下文窗口大小和词位置参数)。所有算法均以CheWSData中每个同形异义词对应的句子数据库为输入,采用留一法交叉验证(leave-one-out cross-validation)进行测试,以避免数据泄露。关键技术包括:上下文窗口设置、位置权重向量、归一化因子以及基于最小距离/最大权重的决策策略。
以下按原文小标题总结研究结果。
**4.1. Results of Testing Homonymy Recognition Algorithms**
研究人员通过随机选取句子、其余句子用于训练的方式,对13个最频繁同形异义词进行测试,并计算F1分数(F1-score)和准确率(accuracy)。以同形异义词“bala”为例,AWN算法在测试周期C=1500、上下文窗口N=4(左侧词数L=2)时达到最优,F1分数为92.96%,准确率为92.97%。实验表明,增加输入数据库数量和计算迭代次数可显著提高同形异义词识别精度。
**4.2. Perceptual Evaluation**
研究人员在车臣语音合成系统中集成了同形异义词识别模块,并进行了对比实验。在引入该模块前后,系统对834个测试句子进行合成。结果表明,引入后正确合成同形异义词的比例显著提升,合成语音更自然。文中展示了程序处理示例,其中同形异义词被正确标注并给出对应音译或翻译。
**5. Discussion**
讨论部分对三种方法在不同词性上的表现进行了比较。AWN方法在名词(F1=0.82)和动词(F1=0.83)上表现最优,显著优于AWEN和AWA;AWA在代词识别上略优(0.73 vs 0.71),但AWN整体平衡性最好。与现有低资源语言WSD方法(如克什米尔语、豪萨语、阿萨姆语、乌尔都语、越南语)对比,AWN(F1=0.78,准确率0.80)在车臣语上排名第二,仅次于ViConBERT(F1=0.87),优于XLM-R(F1=0.79,准确率0.83)、mBERT(F1=0.72)、AWA(F1=0.74)和AWEN(F1=0.40)。研究人员指出,参数化方法在小数据量条件下优于神经网络模型,但语料库仍局限于高频同形异义词,且依赖手动标注,限制了快速扩展。
**6. Conclusions and Future Work**
研究结论翻译如下:对AWN算法的实验研究确立了词汇消歧精度与主要参数(上下文窗口大小N、左侧词数L、处理周期C)之间的经验依赖关系。采用Scikit-learn库计算指标显示,最优识别效率在N=4(L=2)和N=6(L=3)时取得,表明存在最佳上下文分析范围。将C从300增至1500时,F1分数从86.69提升至92.96,验证了扩大数据库与迭代次数可提高统计建模精度。AWN在名词和动词上达到最优F1分数(0.82/0.83),整体表现优于其他方法。与现有低资源语言WSD方法对比,AWN排名第二(F1=0.78),竞争力强。本研究局限性在于CheWSData语料库仅包含高频同形异义词和有限上下文,且依赖专家手动标注。未来计划包括扩展语料库、集成神经网络架构、探索半监督与迁移学习以减少标注成本,并优化实时性能以适配嵌入式系统。研究人员还将探索混合方法,利用上下文方法为微型Transformer模型(如XLM-R)提供硬约束或先验概率,从而降低标注需求并借助相关语言(如俄语或阿瓦尔语)的跨语言迁移。