利用Infomap和标签校正方法提升伪标签的质量,以实现自监督的说话人验证

《Pattern Recognition Letters》:Improving pseudo labels quality with infomap and label correction for self-supervised speaker verification

【字体: 时间:2025年10月11日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  自监督语音验证系统通过整合Infomap聚类和动态损失门机制提升伪标签质量,采用迭代训练框架DINO解决聚类噪声和未定义簇数问题,并引入历史预测融合的标签校正策略,在VoxCeleb1数据集上EER达到1.435%,参数更少且优于现有方法9.53%。

  
常高|李旭翔|李阳|李晓虎
燕山大学信息科学与工程学院,中国河北省秦皇岛市河北西路438号,066004

摘要

自监督说话人验证系统的有效性受到伪标签质量的显著影响,而这些伪标签经常因噪声和聚类算法的固有局限性而变得不可靠。尽管迭代框架在改进伪标签方面展现出了潜力,但其效果往往受到不准确标签分配和不足的校正机制的阻碍。在本研究中,我们提出了在迭代DI静音与NO标签框架(DINO)中集成Infomap聚类和标签校正的方法。Infomap用于对编码器提取的说话人表示进行聚类以估计伪标签,同时采用动态损失门机制来选择可靠的伪标签。为了进一步提高伪标签的质量,我们实现了一种标签校正方法,该方法利用了之前时期的历史预测数据进行融合。我们提出的DINO-DLG-Infomap-LC框架在VoxCeleb1数据集上实现了1.435%的等错误率(EER),相比最著名的自监督学习系统,EER相对降低了9.53%,同时使用的参数更少。

引言

说话人验证(SV)是一种基于预先录制的语音来确认说话人身份的方法[1]、[2]。虽然监督学习方法改进了说话人验证系统,但它依赖于大量的人工标注,这可能既昂贵又耗时[3]、[4]、[5]。相比之下,自监督学习(SSL)通过从语音数据中提取特征而无需说话人标签,提供了一种成本效益更高的解决方案。这种方法在最近的说话人验证任务中展示了有希望的结果。
目前,用于说话人验证系统的SSL方法大致可以分为两类:单阶段SSL和两阶段SSL。前者使用对比方法[6]、[7]、[8]或非对比方法[9]、[10]、[11]、[12]来训练说话人编码器,以获得有效的说话人表示。后者在单阶段方法的基础上采用了迭代框架,如参考文献[13]所提出的。在第一阶段(阶段I),使用说话人编码器生成语音表示。随后,在第二阶段(阶段II),应用聚类算法为每个语音表示分配伪标签,这些伪标签随后被用作说话人编码器迭代训练的监督信号。这种方法带来了显著的性能提升。
以往的研究主要集中在对比方法上,假设不同的语音构成负对。这种方法忽略了负对可能由同一说话人的不同语音组成的情况[13]、[14]、[15]。此外,聚类过程中生成的伪标签常常受到标签噪声的影响,这可能对模型性能产生不利影响。为了解决这个问题,Tao等人[15]实现了手动配置的损失门,而Han等人[16]、[17]使用高斯混合模型(GMM)动态调整损失门。然而,基于低损失值选择样本的策略倾向于优先考虑简单类别,并可能错误地将来自更复杂类别的干净样本分类为不可靠。此外,现有方法[15]、[16]、[17]主要使用k-means算法,这需要预先指定簇的数量。
尽管取得了有希望的进展,但仍存在几个关键挑战尚未解决。首先,聚类生成的伪标签通常包含噪声,这会严重损害模型性能。其次,现有方法主要依赖于k-means聚类,这需要预先定义簇的数量——这一假设在实践中经常被违反。第三,使用低损失过滤策略的方法可能会错误地丢弃实际上干净的样本,从而导致训练偏差。这些限制突显了需要一种更具适应性的聚类方法和一种稳健的标签利用策略,以有效利用伪标签,特别是不可靠的伪标签。为了解决这些挑战并最大化不可靠伪标签的潜力,我们提出了DINO-Infomap-DLG-LC框架。在阶段I中,使用DINO处理假阴性对,从而消除了对负样本的需求。在阶段II中,采用Infomap聚类,无需预先定义簇的数量。该方法根据最短的编码长度路径分配簇,揭示了复杂的网络拓扑结构并提高了伪标签的准确性。此外,为了减轻聚类产生的噪声标签的影响,我们提出了一种标签校正方法,该方法结合了当前和历史预测数据,使用指数移动平均策略。
我们的贡献如下:
  • 将Infomap聚类算法集成到我们的迭代框架中,以提高聚类性能。
  • 我们提出引入动态损失门来改进可靠伪标签的选择并纠正错误的伪标签。此外,我们在迭代训练阶段引入了一种标签校正方法,利用多时期的历史预测分析来增强模型的鲁棒性。
  • 通过应用这些方法,我们的方法在参数数量上优于现有的最先进(SOTA)自监督说话人验证系统。
通过应用这些方法,我们的方法在参数数量上优于现有的最先进(SOTA)自监督说话人验证系统。

方法部分

方法

本节提出了基于迭代框架的DINO-Infomap-DLG-LC方法,如图1所示。

数据集和指标

为了评估所提方法的有效性,我们使用VoxCeleb数据集进行了一系列实验。网络在VoxCeleb2的开发集上进行了训练,该数据集包含来自5994位说话人的1,092,009条语音记录,总音频数据量约为2442小时。值得注意的是,在训练阶段没有使用说话人标签。随后使用VoxCeleb1的测试集评估了所提出的说话人验证方法的性能,该测试集包含1251条语音记录

结论

在这项研究中,我们提出了一种新的聚类算法和标签校正方法(DINO-Infomap-DLG-LC),用于减轻不可靠伪标签对性能的影响。使用Infomap算法提高伪标签的质量,并实现了动态损失门来区分可靠和不可靠的样本。此外,我们引入了一种标签校正方法,该方法利用多个时期的后验概率

CRediT作者贡献声明

常高:写作——审稿与编辑,撰写原始草稿,监督,概念化。李旭翔:撰写原始草稿,软件开发,资源管理,项目管理,方法论研究,形式分析,数据整理。李阳:可视化,验证,项目管理。李晓虎:可视化,验证。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了河北省创新能力提升计划项目22567626H)和河北省科技计划246Z5309G)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号