请听这段摘录:“基于起始语触发的语音目标说话者提取”(Onset-Prompted Target Speaker Extraction)
《Artificial Life》:Listen to Extract: Onset-Prompted Target Speaker Extraction
【字体:
大
中
小
】
时间:2025年11月22日
来源:Artificial Life 1.5
编辑推荐:
单耳目标说话人分离算法LExt通过拼接注册语音与混合信号,利用DNN提取目标说话人,在多个数据集上表现优异。
摘要:
我们提出了一种名为Listen to Extract (LExt) 的算法,该算法在单声道目标说话者提取(TSE)方面具有极高的效率且实现方式极其简单。给定目标说话者的录音语音,LExt 旨在从包含其他说话者的混合语音中提取出目标说话者的声音。对于每种混合语音,LExt 会在波形层面将目标说话者的录音语音与混合信号连接起来,并通过训练深度神经网络(DNN)来根据连接后的混合信号提取目标说话者的声音。这样做的原理是:人为地创建了一个目标说话者的语音起始点,这有助于 DNN (a)判断出需要提取的是哪位说话者的声音;(b)识别出目标说话者的频谱-时间特征,从而辅助提取过程。这种简单的方法在多个公开的 TSE 数据集上取得了优异的提取效果,包括 WSJ0-2mix、WHAM! 和 WHAMR! 等。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号