请听这段摘录:“基于起始语触发的语音目标说话者提取”(Onset-Prompted Target Speaker Extraction)

《Artificial Life》:Listen to Extract: Onset-Prompted Target Speaker Extraction

【字体: 时间:2025年11月22日 来源:Artificial Life 1.5

编辑推荐:

  单耳目标说话人分离算法LExt通过拼接注册语音与混合信号,利用DNN提取目标说话人,在多个数据集上表现优异。

  

摘要:

我们提出了一种名为Listen to Extract (LExt) 的算法,该算法在单声道目标说话者提取(TSE)方面具有极高的效率且实现方式极其简单。给定目标说话者的录音语音,LExt 旨在从包含其他说话者的混合语音中提取出目标说话者的声音。对于每种混合语音,LExt 会在波形层面将目标说话者的录音语音与混合信号连接起来,并通过训练深度神经网络(DNN)来根据连接后的混合信号提取目标说话者的声音。这样做的原理是:人为地创建了一个目标说话者的语音起始点,这有助于 DNN (a)判断出需要提取的是哪位说话者的声音;(b)识别出目标说话者的频谱-时间特征,从而辅助提取过程。这种简单的方法在多个公开的 TSE 数据集上取得了优异的提取效果,包括 WSJ0-2mix、WHAM! 和 WHAMR! 等。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号