面向高效小样本声学异常检测的资源感知型对比散射元学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advanced Intelligent Systems》：Resource-Aware Contrastive Scattering Meta-Learning for Efficient Few-Shot Acoustic Anomaly Detection

【字体：大中小】 时间：2026年06月10日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　受网络—物理系统复杂性持续增加以及资源感知人工智能日益受到关注的推动，本文针对有限数据条件下具有在线适应能力的异常检测相关挑战展开研究。具体而言，研究人员聚焦于声学异常检测应用中的概念漂移（concept drift）与泛化问题。在此背景下，本文提出一种新型资

受网络—物理系统复杂性持续增加以及资源感知人工智能日益受到关注的推动，本文针对有限数据条件下具有在线适应能力的异常检测相关挑战展开研究。具体而言，研究人员聚焦于声学异常检测应用中的概念漂移（concept drift）与泛化问题。在此背景下，本文提出一种新型资源感知型对比散射元学习（CSML）框架，并将其应用于小样本声学异常检测问题。所提框架在元学习（meta-learning）范式中结合了小波散射网络（wavelet scattering network, WSN）的优良特性与对比学习（contrastive learning）的优势。大量实验表明，该方法在领域偏移（domain shift）和噪声环境下具有良好的鲁棒性；在来自DCASE 2020–2022挑战赛的基准数据集上，与当前最先进方法（state-of-the-art, SOTA）相比取得了有前景的结果，同时仅保持50 K个可学习参数的轻量化规模。

本文发表于《Advanced Intelligent Systems》，聚焦资源受限场景下的小样本声学异常检测问题，核心目标是在边缘设备上利用极少量正常样本完成异常声音识别，并在运行过程中对新环境或新“正常模式”进行快速在线适应。研究背景在于，异常检测通常只能获得正常样本进行训练，异常样本天然稀缺，导致训练集高度不平衡；与此同时，工业设备和声学场景在实际部署中经常遭遇环境噪声变化、设备参数变化与工况迁移，从而形成显著的概念漂移（concept drift）与领域偏移（domain shift）。现有声学异常检测方法虽然已经广泛采用深度学习、迁移学习、自监督学习和生成式方法，但大量方法依赖参数规模庞大的卷积神经网络（CNN）或复杂重构机制，不利于在存储、算力和能耗均受限的边缘平台上部署。此外，许多元学习方法在测试期仍需通过梯度更新完成适应，进一步增加了在线推理和适配成本。因此，如何在保持泛化能力的同时显著压缩参数量，并实现低成本的小样本在线更新，成为该研究要解决的关键问题。

针对上述问题，研究人员提出资源感知型对比散射元学习（Contrastive Scattering Meta-Learning, CSML）框架，将无训练的小波散射网络（wavelet scattering network, WSN）作为前端特征提取核心，并将其嵌入基于度量的对比元学习范式之中。该设计实现了从传统“数据驱动重参数特征骨干”向“基于数学先验的固定散射特征骨干”的结构性转变。由于散射网络采用预先计算的小波滤波器组而非通过海量样本学习得到的卷积核，模型无需大规模预训练即可提取稳定、低方差且对平移和形变不敏感的表征。研究中仅将约50 K个可学习参数保留给浅层多层感知机（MLP）投影头，从而相比典型SOTA框架实现约98%的参数量压缩。研究结果表明，该框架不仅能够在未接触目标域样本的离线元训练设定下保持竞争性性能，而且在DCASE 2022目标域这一高难场景中表现出统计学优势，说明该方法在资源受限异常检测任务中具有重要应用价值。

从研究方法看，作者主要采用了三类关键技术。第一，利用两层小波散射网络提取音频段的散射表示，通过卷积、小波模值非线性与低通平均操作构造对声学形变具有不变性和鲁棒性的表示；第二，在离线阶段采用情节式（episodic）对比元学习，将来自不同机器或环境的正常音频片段构造成任务，通过原型（prototype）表示和欧氏距离对比损失学习可迁移嵌入空间；第三，在在线阶段采用小样本原型更新策略，对新机器的少量正常样本进行单次前向计算和均值聚合，实现快速适应。实验数据来源于公开DCASE挑战基准，包括MIMII、MIMII-DUE、MIMII-DG与ToyADMOS2数据集，覆盖DCASE 2020、2021和2022任务设置。

在结果部分，论文首先通过“Core Framework Validation”验证框架核心能力。研究人员在MIMII数据集上、以中等噪声条件为基础，评估了所提方法在元训练与元测试设定下的泛化表现。该部分的关键在于，训练阶段只使用正常样本，测试阶段则要求模型面对训练中未见的新机器型号甚至全新机器类型，并依靠少量正常样本进行在线适应。评价指标采用受试者工作特征曲线（ROC）与曲线下面积（AUC）。

在“Domain Generalization to New Machine Model”中，研究人员针对风扇、阀门、泵和滑轨四类机器分别进行实验：每类机器使用三个型号的正常录音进行元训练，再用一个未见过的新型号进行元测试。结果显示，CSML在所有机器类型和型号上均优于自编码器基线。平均AUC分别达到风扇0.9681、泵0.9991、滑轨0.9811和阀门0.8647，说明该方法能够有效从少量正常样本中建立新“正常模式”的原型表示，并较稳健地区分异常声音。该结果直接支持了作者关于新机器型号泛化能力的主张。

在“Cross-Domain Generalization to New Machine Type”中，研究人员进一步考察跨机器类型的迁移能力，即用某些机器类型的正常声音进行元训练，在测试时迁移到不同机器类型。结果表明，模型在多种跨域组合中均保持较高AUC，例如以风扇训练、迁移到阀门、泵和滑轨时平均AUC为0.9967；以泵训练迁移到其他机器时平均AUC为0.9876。尽管不同训练—测试组合存在性能波动，整体结果仍显示CSML具备较强的跨类型泛化能力，表明散射特征结合对比元学习所形成的嵌入空间并不局限于单一设备类别。

在“Performance on DCASE Challenges Task 2”中，论文将方法推广到更接近真实场景的复杂评估。首先，在“Performance on DCASE 2022 Challenge Task 2 Development Dataset”中，研究人员将CSML与竞赛前三名方法进行比较。该数据集综合了MIMII-DG和ToyADMOS2，包含较大范围的信噪比（SNR）变化与复杂噪声扰动。结果显示，所提方法在ToyCar、Fan、Bearing、SlideRail和Valve等多类机器上取得了具有竞争力、且常常优于对照方法的AUC。虽然在ToyCar和GearBox上出现相对性能下降，但总体趋势表明模型能够在强噪声与未见目标域条件下学习正常声音结构并进行异常区分。

随后，在“Performance on DCASE 2022 Challenge Task 2 Evaluation Dataset”中，研究人员进一步在官方评测集上对源域（source domain）和目标域（target domain）性能进行比较，对照对象包括前三名队伍以及自编码器和MobileNet v2等已发表基线。结果表明，CSML在源域与目标域均表现出与重量级方法相当的竞争力，尤其是在引入更强领域偏移与混合噪声后仍能维持较高AUC。作者同时指出，玩具火车和风扇的异常检测对所有方法而言都相对更困难，这反映出不同设备声学结构本身存在任务难度差异，而非单一方法问题。

在“Performance on DCASE 2021 Task 2 Evaluation Dataset”中，研究人员同样比较了CSML与DCASE 2021前三名以及自编码器、MobileNetV2基线的表现。结果表明，该方法在源域通常与基线相当，并在不少场景下接近竞赛优胜方法；在目标域中，除ToyCar外，所提方法整体仍显示出较好的鲁棒性和可比性。该结果说明，即便框架设计重点是轻量化与在线适应，其检测性能并未因参数极度压缩而显著受损。

在“Ablation Study: Impact of the Contrastive Loss”中，作者通过消融实验比较了基于间隔的欧氏距离损失与基于交叉熵的InfoNCE损失。结果显示，两类目标函数均可用于该框架，但欧氏距离度量对轻量架构具有更优的几何正则化作用；在跨域任务中，欧氏距离版本在低假阳性率条件下可带来最高0.08的真阳性率（TPR）相对提升。这一发现说明，对比学习目标函数的选择会显著影响紧凑型嵌入空间的判别结构，而欧氏度量更适合该原型式推断机制。

在“Statistical Analysis of SOTA Comparison”中，研究人员采用Friedman检验及事后Nemenyi检验，对DCASE 2022任务中CSML与前三名队伍进行非参数统计分析。结果显示，在DCASE 2022目标域数据集上，整体差异达到统计显著，且所提方法优于Team 3，并与Team 1和Team 2无统计显著差异；在源域数据集上，Friedman检验未显示显著差异。这意味着，在参数规模约减少98%的条件下，CSML在高难目标域上达到统计学上不逊于甚至优于部分顶级方法的水平，从统计角度强化了其实用价值。

讨论部分围绕与DCASE 2022前三名方法的比较展开。首先，在方法范式上，CSML采用统一的基于度量的对比元学习框架，而对比队伍更多依赖多阶段训练、领域特化或集成策略。其次，在核心模型方面，CSML以固定小波散射嵌入与浅层MLP为主体，结构明显简化，相比之下，对照方法涉及修改版MobileFaceNet、EfficientNet-B0、Transformer及基于高斯混合模型（GMM）的聚类策略等复杂组件。再次，在资源感知特性上，CSML仅有50 K参数，而Team 1、Team 2和Team 3分别约为1 M、48 M和4 M。论文据此强调，CSML在未接触目标域样本的元训练条件下，仍能实现与这些重参数SOTA方法相当的性能，因此特别适用于内存、功耗和算力预算均受限的边缘部署情境。

研究结论部分指出，本文提出了一种具有在线适应能力的资源感知型声学异常检测新架构CSML，并基于DCASE 2021与DCASE 2022挑战基准开展了系统实验。结果表明，CSML在DCASE 2022 Task 2中取得了与前三名方法相当的竞争性性能，同时仅使用50 K个可学习参数，较现有最先进方法实现约98%的规模压缩。更重要的是，该性能与排名靠前模型在统计学上不可区分，且在具有挑战性的DCASE 2022目标域数据集上显示出更优的泛化表现。总体而言，该研究证明了以固定小波散射特征为核心、结合对比元学习与原型式在线适应的轻量框架，能够在有限数据、显著领域偏移和资源受限部署条件下实现有效的声学异常检测。

联系信箱：

粤ICP备09063491号

热点排行