《Biomedical Signal Processing and Control》:An integrated architecture for ECG classification combining state-space model Mamba with CNNs
编辑推荐:
心电图(ECG)信号分析是心血管疾病诊断中的关键技术。近年来,基于卷积神经网络(CNN)的模型在心电图分类任务中展现出优异性能。然而,CNN 受限于仅具有局部感受野的卷积核,这一本征限制削弱了其捕获全局上下文与长程依赖关系的能力。因此,本文提出一种将状态空间模
心电图(ECG)信号分析是心血管疾病诊断中的关键技术。近年来,基于卷积神经网络(CNN)的模型在心电图分类任务中展现出优异性能。然而,CNN 受限于仅具有局部感受野的卷积核,这一本征限制削弱了其捕获全局上下文与长程依赖关系的能力。因此,本文提出一种将状态空间模型(SSM)Mamba 与 CNN 相结合的一体化架构。Mamba 擅长捕获序列中的时间特征,其隐式注意机制有助于选择性提取重要信息,从而在不显著增加计算成本的前提下提升模型性能。在两个公开心电图数据集 PTB-XL 和 CPSC2018 上的实验结果表明,所提架构在 PTB-XL 上使 Macro-AUC 平均提升 0.8%,在 CPSC2018 上平均提升 0.6%,并且在多种分类任务中均显著优于传统卷积基线模型。主要代码实现已公开于 https://github.com/DDJumper0/CNN-SSM-for-ECG-classification。
该文发表于《Biomedical Signal Processing and Control》,聚焦于十二导联心电图(ECG,electrocardiogram)自动分类中的时序建模瓶颈问题。心电信号处理,尤其是十二导联 ECG,在心血管疾病(CVDs,cardiovascular diseases)早期筛查与临床诊断中具有核心作用。然而,原始 ECG 记录数量庞大,人工判读高度依赖心脏病学专家经验,造成较大的临床工作负荷。自动化 ECG 分析因而成为提升诊断效率、降低误诊风险的重要方向,尤其适用于无症状或轻症患者的早期识别。围绕多导联、多标签 ECG 分类构建低计算负担而高准确性的算法,已成为该领域的重要研究目标。
现有研究中,卷积神经网络(CNN,convolutional neural network)因能够有效提取局部波形模式而被广泛应用于 ECG 分类,且端到端地直接输入原始信号已取得良好效果。但 ECG 信号不仅包含局部形态结构,如 P–QRS–T 波群,还具有跨心动周期的弱周期性和长程时间依赖,仅依靠局部卷积感受野难以完整建模此类动态信息。循环神经网络(RNN,recurrent neural network)及其代表性结构长短期记忆网络(LSTM,long short-term memory)和门控循环单元(GRU,gated recurrent unit)曾被用于补充时序建模,但仍存在效率不足以及长距离依赖捕获困难的问题。Transformer 虽借助自注意力机制在长程依赖建模方面取得进展,但其自注意力具有置换不变性,对序列顺序的显式刻画不足,同时二次复杂度也使其在长序列上代价较高。基于此,研究人员引入状态空间模型(SSM,state-space model)Mamba,以期在保持较低计算开销的同时,加强 ECG 分类中的全局时间建模能力。
研究的核心工作是将 Mamba 模块嵌入 CNN 主干网络,构建一种可插入式的 CNN-Mamba 一体化架构。该设计利用 CNN 对局部波形形态的高效提取能力,同时借助 Mamba 的数据依赖选择机制,对输入中的任务相关信息进行筛选并纳入隐状态,对不重要成分进行抑制,从而增强特征表达的紧凑性与信息密度。论文同时强调,ECG 中具有诊断价值的信息通常在时间上稀疏且分布不均,病理性模式常仅出现在特定片段,因此选择性时间建模尤为必要。进一步地,研究还讨论了 LayerNorm 在状态空间模型中的稳定化作用,指出其有助于减小特征尺度差异、缓解过拟合并提高模型泛化性。总体上,该研究试图解决传统卷积模型难以兼顾局部形态与长程时序关系的问题,并在保证计算效率的前提下提升 ECG 自动分类性能。
方法上,研究人员在 Python 与 pytorch1.10.0 框架下实现全部实验,并在配备 i7-12700F CPU、128 GB 内存及 NVIDIA GeForce RTX 3090 GPU 的环境中完成训练与评估。数据来源于两个公开的十二导联 ECG 数据集:PTB-XL 与 CPSC2018。模型设计上,研究提出由 Mamba 与 LayerNorm 组成的可插入模块,并将其嵌入基线 CNN 模型中,以增强时序表示能力。性能评估采用 Macro-AUC,并在不同实验设置下进行比较,同时使用配对双侧 t 检验,在 90% 置信水平下以 p<0.10 判断统计显著性。
在研究结果部分,论文首先围绕分类性能与经验实验展开分析。该部分通过在 PTB-XL 与 CPSC2018 两个数据集上进行对比实验,验证了 CNN-Mamba 架构相对于传统卷积基线模型的整体优势。研究结果显示,加入 Mamba 后,模型在不同分类任务中的 Macro-AUC 均得到提升,说明该架构能够更有效地利用 ECG 序列中的长程时间依赖与关键时序模式。特别是在 PTB-XL 数据集上,所提方法在全部任务中的 Macro-AUC 平均提升 0.8%;在 CPSC2018 数据集上,平均提升 0.6%。这一结果表明,该方法不仅在单一数据集上有效,而且在不同来源、不同标注任务的公开数据上均表现出稳定改进。
围绕模型性能提升的原因,论文指出,Mamba 的优势在于其对时序特征的捕获能力以及隐式注意机制。与仅依赖局部卷积核的 CNN 不同,Mamba 能够在序列层面实现更强的全局时间建模,并有选择地强调重要片段、抑制冗余或干扰信息。由于 ECG 信号中的病理性征象并非均匀分布于整段记录,而往往只在局部时段显现,这种选择性机制对于提高分类判别力具有直接价值。研究因此认为,将 Mamba 嵌入卷积特征提取流程后,模型获得了兼具局部形态表征与全局动态建模的双重能力,这是性能优于传统卷积模型的重要原因。
论文还强调了 LayerNorm 在状态空间模块中的辅助作用。研究显示,LayerNorm 对稳定状态空间模型训练过程具有关键意义,能够降低不同特征通道之间的尺度不一致性,从而改善表示分布并减轻过拟合风险。鉴于 ECG 信号常受噪声、采集条件变化及个体差异影响,信号中常出现尺度与分布漂移,归一化机制对于提升模型鲁棒性和实际应用中的泛化能力具有重要作用。论文据此将 LayerNorm 视为该架构中不可忽视的组成部分,而非仅仅是常规的训练技巧。
在主体论述中,研究还从 ECG 信号本身的结构特征解释了该模型设计的合理性。ECG 同时具有显著局部形态和跨周期时序依赖的双重属性:一方面,P–QRS–T 波群等局部波形是分类的重要基础;另一方面,不同心动周期之间的节律变化、异常重复模式及跨时间片段的关联同样与诊断密切相关。单纯卷积编码器适于捕获前者,却难以充分表示后者。Mamba 则通过输入依赖的状态转移机制实现对时序上下文的压缩与筛选,因此与 CNN 形成了天然互补。论文据此证明,一体化架构并非简单堆叠模块,而是针对 ECG 信号固有结构特性所作出的定向建模设计。
讨论部分的核心在于:该研究证明,将状态空间模型引入 ECG 卷积分类框架能够在不显著增加计算成本的条件下,改善长程依赖建模与关键信息选择能力,从而提升整体分类效果。研究同时表明,稳定的归一化策略对状态空间模型在实际生物医学时序信号中的应用十分关键。论文的意义主要体现在两个层面:其一,方法学层面上,为 ECG 自动分类提供了 CNN 与 SSM 深度融合的新思路;其二,应用层面上,为构建兼具高性能、较好鲁棒性与较低计算负担的临床辅助诊断模型提供了实证支持。
研究结论部分可译为:总之,本文提出了一种将状态空间模型 Mamba 与卷积神经网络相结合的 ECG 信号分类新架构。该方法利用 Mamba 捕获时间特征的能力,克服了传统 CNN 在长程依赖建模方面的局限。研究人员在两个公开 ECG 数据集 PTB-XL 和 CPSC2018 上对模型进行了评估。具体而言,该架构在 PTB-XL 数据集全部任务上的 Macro-AUC 平均提升 0.8%,并在 CPSC2018 数据集上实现了 0.6% 的平均提升。整体结果表明,该方法在多种 ECG 分类任务中均优于传统卷积基线模型,说明将 Mamba 融入 CNN 是提升心电时序建模能力与分类性能的一种有效途径。