RFGETT-TTS:基于Transformer的鲁棒细粒度表现力迁移文本转语音合成

《IEEE Access》:RFGETT-TTS: Robust Fine-Grained Expressivity Transfer with Transformer For Text-To-Speech Synthesis

【字体: 时间:2025年12月29日 来源:IEEE Access 3.6

编辑推荐:

  为解决神经文本转语音(TTS)在合成富有表现力的语音时面临的挑战,研究人员开展了RFGETT-TTS主题研究。该研究通过引入细粒度表现力迁移机制,结合多头交叉注意力(MHCA)和对角约束(DC),成功实现了从参考语音到目标文本的高质量表现力传递。实验结果表明,该方法在ESD和EmoV-DB数据集上,其Mel倒谱失真(MCD)和表现力平均意见得分(Expressivity-MOS)均优于现有模型,显著提升了合成语音的自然度和表现力,为人机交互提供了更生动的语音合成方案。

  
论文解读
在人工智能技术飞速发展的今天,语音合成(Text-to-Speech, TTS)作为人机交互的核心技术之一,其目标已不再仅仅是生成清晰可懂的语音,而是追求与人类语音相媲美的自然度和表现力。想象一下,当你使用语音助手时,如果它能像真人一样,根据语境和情绪调整语调、语速和重音,那么交流将变得多么生动和富有情感。然而,这恰恰是当前神经文本转语音(Neural TTS, NTTS)技术面临的一大难题。
传统的NTTS模型通常将文本映射为语音,但同一个文本可以对应多种不同的语音表达方式,这被称为“一对多”问题。为了生成富有表现力的语音,研究人员尝试将表现力从一段参考语音中“迁移”到目标文本上。然而,现有的方法在实现这种迁移时,往往面临诸多挑战。例如,基于循环神经网络(RNN)的模型训练和推理速度慢,且容易产生错误累积、重复发音或遗漏内容等问题。此外,如何精确地捕捉并传递参考语音中细微的韵律特征(如音高、能量、节奏),即实现“细粒度”的表现力控制,同时保持合成语音的稳定性和高质量,是当前研究的重点和难点。
为了攻克这些难题,来自突尼斯国家工程学院的Mohamed Hamed及其团队在《IEEE Access》上发表了一项名为“RFGETT-TTS”的研究。该研究提出了一种基于Transformer架构的鲁棒细粒度表现力迁移方法,旨在通过一种更高效、更精确的机制,将参考语音中的表现力特征无缝地融入到合成语音中,从而生成自然且富有情感的语音。
关键技术方法
为了开展这项研究,研究人员构建了RFGETT-TTS模型,其核心架构基于Transformer,并集成了多项关键技术模块:
  1. 1.
    韵律特征提取与聚合模块:该模块从参考语音中提取基频(F0)和能量等韵律特征,并利用蒙特利尔强制对齐器(Montreal Forced Aligner)将这些特征在音素级别进行对齐和平均,从而获得稳定的韵律表示。
  2. 2.
    表现力-文本编码器(Expressivity-Text Encoder):这是模型的核心创新。它引入了一个多头交叉注意力(Multi-Head Cross-Attention, MHCA)机制,该机制能够将文本表示(作为查询)与从参考语音中提取的韵律特征(作为键和值)进行对齐和融合,生成一个融合了文本内容和表现力信息的上下文向量。
  3. 3.
    说话人模块:该模块学习说话人身份嵌入,用于在合成过程中保持说话人身份的一致性。
  4. 4.
    对角约束(Diagonal Constraint, DC):在训练过程中,该约束被用于强制模型学习文本与语音之间的正确对齐,确保合成过程的稳定性。
  5. 5.
    推理时滑动窗口机制:在推理阶段,模型采用滑动窗口策略来约束注意力权重,进一步确保文本与韵律特征之间的对齐是单调且平滑的。
研究结果
1. 模型架构与训练
RFGETT-TTS模型采用序列到序列(seq2seq)的架构,其输入为音素序列和参考语音,输出为Mel频谱图。模型训练时,损失函数由三部分组成:Mel频谱图的重构损失(Lrecon)、停止标记的损失(Lstop)以及对角约束损失(LDC)。实验在两个公开数据集上进行:EmoV-DB(包含4种情感)和ESD(包含5种情感),涵盖了多说话人和多情感的场景。
2. 消融实验
为了验证模型各组件的重要性,研究人员进行了一系列消融实验。结果表明,使用位置编码(Positional Encoding, Penc)结合层归一化(Layer Normalization, Lnor)比使用可缩放的位置编码效果更好。此外,增加编码器和解码器的层数或注意力头数能够提升模型性能,其中4层8头的配置在性能和参数效率之间取得了最佳平衡。移除对角约束(DC)会导致模型性能显著下降,证明了其在稳定训练过程中的关键作用。
3. 客观评估
在客观评估中,RFGETT-TTS在多个指标上均优于基线模型(GST、STVAE、FGTAC和STFGTR)。具体而言,RFGETT-TTS取得了最低的Mel倒谱失真(MCD)值(3.50)和基频帧错误率(FFE)(9.0%),表明其在音质和韵律特征(如音高)的保真度方面表现最佳。同时,其在感知语音质量评估(PESQ)和短时客观可懂度(STOI)上也取得了最高分,证明了其合成语音在感知质量和可懂度上的优越性。
4. 主观评估
主观评估结果进一步证实了RFGETT-TTS的优越性。在MUSHRA测试中,RFGETT-TTS获得了79分的高分,显著优于其他模型。在平均意见得分(MOS)方面,RFGETT-TTS在自然度(3.65)和表现力(3.38)上均取得了最高分,且统计检验表明这些提升是显著的(p值<0.05)。此外,在说话人相似度(Speaker-MOS)方面,RFGETT-TTS也取得了最佳成绩(3.24),表明模型在迁移表现力的同时,能够很好地保持说话人的身份特征。
5. 案例分析
研究人员通过可视化分析,展示了RFGETT-TTS在表现力迁移方面的能力。通过对比中性合成语音、参考语音以及基于参考语音合成的语音的Mel频谱图和基频轮廓,可以清晰地看到,RFGETT-TTS生成的语音在韵律特征上(如音高变化)成功地模仿了参考语音的模式,而中性语音则显得平滑且缺乏变化。
结论与讨论
本研究提出的RFGETT-TTS方法,通过引入细粒度表现力迁移机制,成功地将参考语音中的韵律特征精确地传递到合成语音中。其核心创新在于设计了一个包含多头交叉注意力(MHCA)的表现力-文本编码器,该机制能够有效地对齐和融合文本内容与韵律信息。此外,模型还集成了说话人身份嵌入和对角约束(DC)等技术,确保了合成语音在保持说话人身份一致性的同时,具有高度的自然度和表现力。
实验结果表明,RFGETT-TTS在客观和主观评估中均显著优于现有的基线模型,证明了其在多说话人、多情感场景下进行高质量表现力迁移的有效性和鲁棒性。该研究不仅为富有表现力的语音合成提供了一种高效的解决方案,其模块化的设计也为未来进一步探索跨说话人表现力迁移、低资源语言合成以及实时优化等方向奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号