基于数据增强技术的跨语言多语音合声系统（TTS），结合深度学习（DL）与情感分析功能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：Data Augmentation based Cross-Lingual Multi-Speaker TTS using DL with Sentiment Analysis

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　本研究提出一种基于生成对抗网络（GANs）的多语言语音转换方法，结合混合深度学习捕捉跨语言不变特征，并引入个体相似性损失保持说话人身份一致性。通过对比实验验证了其在多语言连续转换中的发音准确性和语音质量。

摘要

近年来，文本到语音（TTS）算法在生成尽可能自然的单语语音方面取得了巨大进展。然而，由于缺乏足够的训练数据，用同一个人的语音合成多种语言的语音仍然是一个难题。要找到能够像母语者一样熟练掌握多种语言的人可能非常困难。语音转换是一种可以用来创建多语言语料库的方法，从而解决这一问题。该方法利用基于53种不同语言训练得到的语音表示模型，并结合混合深度学习技术来捕捉与说话者无关的共性特征。在这项研究中，我们提出了一种新的跨语言语音转换方法，通过生成对抗网络（GANs）来训练多语言TTS系统。为了应对训练过程中保持说话者个体特征的特殊挑战，我们引入了“个体相似性损失”这一概念。我们的目标是让来自不同语言和说话者的声音数据看起来像是同一个人发出的。为了评估模型的有效性，我们进行了两项实验，这些实验将我们的模型与在不同语言之间共享不同程度参数的基准模型进行了对比。这些实验的目的是为了衡量模型在不同语言转换时对发音准确性和合成语音质量的提升效果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号