利用自编码器和EfficientNet从脑电图(EEG)中检测可解释的精神分裂症特征
《Pattern Recognition Letters》:Toward interpretable schizophrenia detection from EEG using autoencoder and EfficientNet
【字体:
大
中
小
】
时间:2025年10月10日
来源:Pattern Recognition Letters 3.3
编辑推荐:
提出DINO-Infomap-DLG-LC框架,通过Infomap无监督聚类替代传统k-means算法,动态损失门控筛选可靠伪标签,结合历史预测标签校正机制,有效降低伪标签噪声。在VoxCeleb1数据集上实现1.435%的等错误率,较现有方法提升9.53%。
常高|李旭祥|李阳|李晓虎
燕山大学信息科学与工程学院,中国河北省秦皇岛市河北西大道438号,066004
摘要
自监督说话人验证系统的有效性受到伪标签质量的显著影响,而这些伪标签经常因噪声和聚类算法的固有局限性而变得不可靠。尽管迭代框架在改进伪标签方面展现出了潜力,但其有效性常常受到不准确标签分配和不足的校正机制的阻碍。在本研究中,我们提出了在迭代DI静音与NO标签框架(DINO)中集成Infomap聚类和标签校正的方法。Infomap用于对编码器提取的说话人表示进行聚类以估计伪标签,同时采用动态损失门机制来选择可靠的伪标签。为了进一步提高伪标签的质量,我们实现了一种标签校正方法,该方法利用了来自先前时期的历史预测数据进行融合。我们提出的DINO-DLG-Infomap-LC框架在VoxCeleb1数据集上实现了1.435%的等错误率(EER),相比最著名的自监督学习系统,EER相对降低了9.53%,同时使用的参数更少。
引言
说话人验证(SV)是一种基于预先录制的语音来确认说话人身份的方法[1]、[2]。虽然监督学习方法提高了说话人验证系统的性能,但它依赖于大量的人工标记工作,这既昂贵又耗时[3]、[4]、[5]。相比之下,自监督学习(SSL)通过从语音数据中提取特征而无需说话人标签,提供了一种成本效益更高的解决方案。这种方法在最近的说话人验证任务中展示了良好的结果。
目前,用于说话人验证系统的SSL方法大致可以分为两类:单阶段SSL和两阶段SSL。前者使用对比方法[6]、[7]、[8]或非对比方法[9]、[10]、[11]、[12]来训练说话人编码器,以获得有效的说话人表示。后者在单阶段方法的基础上采用了迭代框架,如参考文献[13]所提出的。在第一阶段(阶段I),使用说话人编码器生成语音表示;随后在第二阶段(阶段II),应用聚类算法为每个语音表示分配伪标签,这些伪标签随后被用作说话人编码器迭代训练的监督信号。这种方法显著提高了性能。
以往的研究主要集中在对比方法上,假设不同的语音构成了负样本对。这种方法忽略了负样本对可能由同一说话人发出的不同语音组成的情况[13]、[14]、[15]。此外,在聚类过程中生成的伪标签经常受到标签噪声的影响,这可能会对模型性能产生不利影响。为了解决这个问题,Tao等人[15]实现了一个手动配置的损失门,而Han等人[16]、[17]使用高斯混合模型(GMM)来动态调整损失门。然而,基于低损失值选择样本的策略倾向于优先考虑较简单的类别,可能会错误地将来自更复杂类别的干净样本分类为不可靠的样本。此外,现有方法[15]、[16]、[17]主要使用k-means算法,这需要预先指定簇的数量。
尽管取得了令人满意的进展,但仍存在几个关键挑战尚未解决。首先,从聚类生成的伪标签通常包含噪声,这会显著影响模型性能。其次,现有方法主要依赖于k-means聚类,这需要预先定义簇的数量——这一假设在实践中经常被违反。第三,使用低损失过滤策略的方法可能会错误地丢弃实际上干净的样本,导致训练结果偏颇。这些限制凸显了需要一种更具适应性的聚类方法和一种强大的标签利用策略,以便有效利用伪标签,特别是不可靠的伪标签。为了解决这些挑战并最大化不可靠伪标签的潜力,我们提出了DINO-Infomap-DLG-LC框架。在第一阶段,使用DINO处理假阴性对,从而消除了对负样本的需求。在第二阶段,采用Infomap聚类,无需预先定义簇的数量。该方法根据最短的编码长度路径来分配簇,揭示了复杂的网络拓扑结构并提高了伪标签的准确性。此外,为了减轻聚类产生的噪声标签的影响,我们提出了一种标签校正方法,该方法结合了当前和历史预测数据,使用指数移动平均策略。
我们的贡献如下:
- •
将Infomap聚类算法集成到我们的迭代框架中,以提高聚类性能。
- •
我们提出引入动态损失门来改进可靠伪标签的选择并纠正错误的伪标签。此外,我们引入了一种标签校正方法,在迭代训练阶段利用多时期的历史预测分析来增强模型的鲁棒性。
- •
通过应用这些方法,我们的方法在参数数量上优于现有的最先进(SOTA)自监督说话人验证系统。
通过应用这些方法,我们的方法在参数数量上优于现有的最先进(SOTA)自监督说话人验证系统。
方法部分
方法
本节介绍了基于迭代框架的DINO-Infomap-DLG-LC方法,如图1所示。
数据集和指标
为了评估所提出方法的有效性,我们使用VoxCeleb数据集进行了一系列实验。网络在VoxCeleb2的开发集上进行训练,该数据集包含来自5994位说话人的1,092,009条语音记录,总计约2442小时的音频数据。值得注意的是,在训练阶段没有使用说话人标签。随后使用VoxCeleb1的测试集评估了所提出的说话人验证方法的性能,该测试集包含1251条语音记录
结论
在这项研究中,我们提出了一种新的聚类算法和标签校正方法(DINO-Infomap-DLG-LC),用于减轻不可靠伪标签对性能的影响。Infomap算法用于提高伪标签的质量,动态损失门用于区分可靠和不可靠的样本。此外,我们引入了一种标签校正方法,该方法利用了多个时期的后验概率
CRediT作者贡献声明
常高:撰写 – 审稿与编辑,撰写 – 原始草稿,监督,概念化。李旭祥:撰写 – 原始草稿,软件,资源,项目管理,方法论,调查,形式分析,数据整理。李阳:可视化,验证,项目管理。李晓虎:可视化,验证。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了河北省创新能力提升计划项目(22567626H)和河北省科技计划
(246Z5309G)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号