利用多时频尺度通道注意力机制从语音信号中检测抑郁情绪

《Biomedical Signal Processing and Control》:Depression detection from speech signals using a multiple temporal-frequency scale Channel Attention Mechanism

【字体: 时间:2025年10月17日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  通道注意力机制通过多时间-频率尺度离散小波变换增强特征描述,提升抑郁症语音检测模型性能。实验表明在DAIC-WoZ和Androids数据集上,集成MTFS-Block的DepAudioNet和ECAPA-TDNN模型F1分数分别提高5.49%/4.68%和9.92%/8.25%,标准差降低28.21%/48.94%。

  在当前的研究中,我们关注的是如何利用深度学习技术来提高基于语音的抑郁症检测的准确性和稳定性。随着人工智能和语音信号处理技术的不断进步,语音成为一种重要的生物特征,用于识别和分析心理健康状况。抑郁症作为一种常见的心理障碍,其症状包括情绪低落、缺乏希望和兴趣丧失,这些症状在语音中往往表现为一些微妙的特征,如说话速度变慢、停顿时间延长、音调和音量变化减少等。传统的抑郁症检测方法通常依赖于人工提取的特征,但由于这些特征的设计需要大量专业知识,且难以适应复杂的语音变化,因此限制了其应用范围和效果。

近年来,研究人员开始采用卷积神经网络(CNN)来自动学习语音信号中的特征。CNN能够直接从原始语音数据中提取局部的时频特征,从而提高了抑郁症检测的效率和准确性。然而,这些网络生成的特征图往往是高维的,并且可能包含冗余信息和噪声,这会削弱对抑郁症相关特征的表征能力。为了克服这一问题,通道注意力机制(CAMs)被引入,用于对特征通道进行重新校准,以提高模型对关键特征的识别能力。其中,SE-Block是一种常见的CAM模块,它通过全局平均池化(GAP)来构建通道描述符,但这种方法会将时间域和频率域的细节信息压缩为单一尺度的表示,从而忽略了抑郁症在多尺度上的局部特征。

为了解决这一局限性,我们提出了一种新的通道注意力机制,称为多时频尺度块(MTFS-Block)。MTFS-Block是一种可以嵌入到现有模型中的模块,通过离散小波变换(DWT)将多尺度的时间和频率信息嵌入到通道描述符中,从而增强模型对包含重要抑郁症相关信息的通道的强调能力,提高抑郁症检测的性能。我们将MTFS-Block集成到DepAudioNet和ECAPA-TDNN这两个广泛采用的基线模型中,并在DAIC-WoZ和Androids数据集上进行评估。实验结果表明,MTFS-Block在提升模型准确性和稳定性方面表现优异。

在DepAudioNet中,MTFS-Block使模型在DAIC-WoZ数据集上的F1分数提高了5.49%,在Androids数据集上提高了4.68%。同时,标准差分别减少了28.21%和9.70%。而在ECAPA-TDNN中,MTFS-Block带来了更大的提升,F1分数分别提高了9.92%和8.25%,标准差减少了48.94%和23.53%。这些改进在计算成本上几乎可以忽略不计,表明MTFS-Block不仅在性能上优于传统CAM模块,而且在资源消耗方面也具有优势。此外,MTFS-Block在强调重要通道方面展现出更强的能力,这表明它在语音分析中具有广泛的应用前景。

抑郁症相关语音特征的一个显著特点是其强度较低、分布稀疏且不规则。这些特征通常表现为较小的振幅、较少的出现频率以及在多个时间和频率尺度上的分布。传统的CAM模块,如SE-Block,通过使用单一的全局平均池化值来构建通道描述符,这种做法将整个特征图压缩为一个平均统计量,导致抑郁相关信息与无关信息的混合,稀释了原本就微妙的特征,并生成了低方差的描述符,这些描述符缺乏区分能力。而CBAM则通过引入全局最大池化(GMP)来捕捉极端响应,但仍然依赖于全局聚合,这使得注意力无法聚焦于对抑郁症评估至关重要的频率特定细节。研究表明,从全局描述符中得到的注意力权重往往倾向于关注低频成分,这限制了网络对细粒度通道表征的学习能力。

为了解决这些问题,我们提出了一种基于多时频尺度的通道注意力机制,即MTFS-Block。该机制利用多尺度分解技术,将每个通道中的细粒度信息嵌入到通道表征中,从而生成更精确的通道注意力权重。具体来说,我们首先对卷积特征图中的每个通道进行多级DWT分解,将语音信号分解为多个时间和频率尺度的子成分。接着,我们对每个子成分应用GAP和GMP操作,以生成富含详细时间和频率信息的细粒度通道描述符。最后,利用这些描述符计算精确的通道注意力权重,从而强调包含抑郁症相关特征的通道。

我们将MTFS-Block集成到DepAudioNet和ECAPA-TDNN这两个广泛使用的基线模型中,并在DAIC-WoZ和Androids数据集上进行评估。实验结果表明,MTFS-Block在提升模型性能方面表现优异。在DepAudioNet中,MTFS-Block使模型在DAIC-WoZ数据集上的F1分数提高了5.49%,在Androids数据集上提高了4.68%。而在ECAPA-TDNN中,MTFS-Block带来了更大的提升,F1分数分别提高了9.92%和8.25%。这些结果表明,MTFS-Block在语音分析中具有显著的优势,能够提高抑郁症检测的准确性。

我们的研究主要贡献包括以下几点:首先,我们提出了一种基于多时频尺度的通道表征方法,该方法利用每个通道在特征图中的多尺度信息,构建细粒度的通道描述符,从而提供更全面和结构化的表征。其次,我们引入了MTFS-Block,这是一种可插拔的通道注意力机制,能够从细粒度的表征中计算出具有区分性的注意力权重,显著优于传统的CAM模块。最后,我们通过将MTFS-Block集成到两个广泛采用的基线模型中,并在两个公共基准数据集上进行评估,验证了其有效性,并取得了平均F1分数的提升。

在实验部分,我们采用了两个公开的数据集:DAIC-WoZ和Androids。这两个数据集均用于抑郁症检测,通过记录被试者的语音来构建。它们的有效性和可靠性已在多个关于语音分析抑郁症的研究中得到验证。为了确保实验的全面性和准确性,我们对数据集进行了详细的预处理,包括语音信号的标准化、噪声过滤以及特征提取。在实验设置中,我们采用了五次独立运行的平均结果,以确保统计结果的可靠性。我们报告了类别级别的F1分数、精确度、召回率和标准差,以全面评估模型的性能。

在性能比较方面,我们将MTFS-Block集成到DepAudioNet和ECAPA-TDNN这两个基线模型中,并在DAIC-WoZ和Androids数据集上进行测试。结果显示,MTFS-Block显著提升了模型的检测能力。在DepAudioNet中,F1分数在DAIC-WoZ数据集上提高了5.49%,在Androids数据集上提高了4.68%。而在ECAPA-TDNN中,F1分数分别提高了9.92%和8.25%。同时,标准差分别减少了28.21%和9.70%(在DAIC-WoZ数据集上),以及48.94%和23.53%(在Androids数据集上)。这些结果表明,MTFS-Block不仅在提升模型性能方面表现出色,而且在提高模型稳定性方面也具有优势。

此外,MTFS-Block在强调重要通道方面表现出更强的能力。相比于传统的CAM模块,它能够更精确地捕捉抑郁症相关的特征,从而提高检测的准确性。这种机制使得模型能够更有效地学习到语音信号中的细粒度特征,从而提升对抑郁症的识别能力。在实际应用中,MTFS-Block可以嵌入到现有的语音分析模型中,无需对原有结构进行大规模修改,这使得其具有较高的可扩展性和实用性。

为了确保研究的透明度和可重复性,我们声明在撰写过程中使用了生成式AI技术,如ChatGPT-4o,以提高语言表达和可读性。在使用该工具后,我们对内容进行了仔细的审阅和编辑,确保研究内容的准确性和完整性。同时,我们声明没有已知的与本研究相关的竞争性利益或个人关系,这些因素可能影响研究的客观性。

在研究过程中,我们得到了多个机构的支持。其中包括日本文部科学省(Ministry of Education, Culture, Sports, Science and Technology-Japan)的科研补助金(Grant-in-Aid for Scientific Research),以及日本国立信息通信技术研究所(National Institute of Information and Communications Technology, JAPAN)的委托研究。这些支持为我们的研究提供了必要的资源和条件,使我们能够顺利完成实验和分析。

综上所述,MTFS-Block作为一种基于多时频尺度的通道注意力机制,能够有效提升基于语音的抑郁症检测的准确性和稳定性。相比于传统的CAM模块,它能够更精确地捕捉语音信号中的多尺度特征,从而提高模型对抑郁症相关信息的识别能力。这一机制的引入,为语音分析在心理健康领域的应用提供了新的思路和方法。未来的研究可以进一步探索MTFS-Block在其他心理健康问题中的应用,如焦虑症、孤独症等,以拓展其适用范围和效果。此外,还可以考虑将MTFS-Block与其他深度学习技术相结合,如循环神经网络(RNN)、Transformer等,以进一步提升模型的性能和泛化能力。这些研究方向将有助于推动语音分析在心理健康领域的应用和发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号