请听这段摘录：“基于起始语触发的语音目标说话者提取”（Onset-Prompted Target Speaker Extraction）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Life》：Listen to Extract: Onset-Prompted Target Speaker Extraction

【字体：大中小】 时间：2025年11月22日 来源：Artificial Life 1.5

编辑推荐：

　　单耳目标说话人分离算法LExt通过拼接注册语音与混合信号，利用DNN提取目标说话人，在多个数据集上表现优异。

摘要：

我们提出了一种名为Listen to Extract (LExt) 的算法，该算法在单声道目标说话者提取（TSE）方面具有极高的效率且实现方式极其简单。给定目标说话者的录音语音，LExt 旨在从包含其他说话者的混合语音中提取出目标说话者的声音。对于每种混合语音，LExt 会在波形层面将目标说话者的录音语音与混合信号连接起来，并通过训练深度神经网络（DNN）来根据连接后的混合信号提取目标说话者的声音。这样做的原理是：人为地创建了一个目标说话者的语音起始点，这有助于 DNN （a）判断出需要提取的是哪位说话者的声音；（b）识别出目标说话者的频谱-时间特征，从而辅助提取过程。这种简单的方法在多个公开的 TSE 数据集上取得了优异的提取效果，包括 WSJ0-2mix、WHAM! 和 WHAMR! 等。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号