一种基于实时深度学习的心电图心血管疾病预测方法,该方法结合了自适应漂移检测和生成式特征重放技术

《CMES - Computer Modeling in Engineering and Sciences》:A Real-Time Deep Learning Approach for Electrocardiogram-Based Cardiovascular Disease Prediction with Adaptive Drift Detection and Generative Feature Replay

【字体: 时间:2025年10月10日 来源:CMES - Computer Modeling in Engineering and Sciences

编辑推荐:

  本文提出ADWIN-GFR框架,结合CNN和GRU模型,利用自适应窗口(ADWIN)实时检测心电图(ECG)信号中的概念漂移,并通过生成特征回放(GFR)机制优化模型微调,有效解决数据漂移和灾难性遗忘问题。实验基于MIT-BIH数据集,在突发、渐变、重复及真实场景漂移中,ADWIN-GFR平均准确率达95.4%,宏F1-score为93.9%,遗忘分数仅0.9%,且检测延迟平均12步,验证了其在动态医疗环境中的实时性和鲁棒性。

  心血管疾病(CVDs)仍然是全球范围内导致死亡的主要原因之一,这凸显了早期和准确预测的重要性。心电图(ECG)信号在心脏监测中扮演着核心角色,近年来,随着深度学习(DL)技术的不断发展,ECG信号已被越来越多地用于实时预测CVDs。然而,深度学习模型在面对概念漂移(concept drift)和灾难性遗忘(catastrophic forgetting)时,其性能容易出现退化。为了解决这一问题,我们提出了一种实时CVDs预测方法,称为ADWIN-GFR,该方法结合了卷积神经网络(CNN)层用于空间特征提取,以及门控循环单元(GRU)用于时间建模,同时引入了自适应的概念漂移检测和缓解机制。通过整合自适应窗口(ADWIN)进行实时概念漂移检测,结合基于生成特征重放(GFR)的微调策略以保留之前获得的知识,并采用动态重放缓冲区确保特征的多样性、数据分布的覆盖和数据的稳定性,我们的方法能够有效应对数据漂移,同时保持模型的长期预测准确性。

在医疗领域,数据漂移指的是输入数据或目标变量随时间变化的统计特性,这会显著降低预测模型的性能。在医疗数据流中,概念漂移可能以多种形式出现,包括协变量漂移(当输入特征的分布变化而与目标变量的关系保持不变时)、标签漂移(输出标签分布的变化)、特征漂移(输入结构的演变,如新的ECG设备的引入)、概念漂移(输入与输出之间的关系变化)以及数据漂移(特征和标签的整体变化)。以临床采用新式可穿戴ECG设备为例,这些设备可能引入细微但具有影响的变化,包括信号分辨率、噪声水平和波形形状的改变,从而改变输入空间,使基于传统临床ECG数据集训练的模型失效。这些漂移现象对实时健康监测系统构成了严重挑战,可能导致诊断错误、错过健康问题,并降低AI工具的可信度,特别是在远程患者监测或紧急护理等快速变化的环境中。因此,开发一种能够检测漂移并进行自适应学习的机制,对于构建稳健且具有临床可靠性的CVDs预测系统至关重要。

在实时CVDs预测领域,现有方法大致可分为三类。第一类是传统的机器学习(ML)和深度学习(DL)方法,这些方法在CVDs预测方面已取得显著进展。例如,传统的ML模型如集成多层感知器(MLPs)[36]、XGBoost[37]和LightGBM[38]在处理不平衡数据集方面表现出色,但它们依赖于批量训练,并假设数据分布是静态的,这使得它们在实时应用中存在局限性。此外,一些研究探讨了数据融合策略以提高模型在异构数据源中的鲁棒性[39]。在DL方面,基于CNN的架构[40]、CNN-MLP[41]等模型能够有效捕捉ECG信号中的空间模式,表现良好。然而,它们的离线训练和计算需求限制了其在动态、资源受限环境中的适应性。这些局限性促使研究者关注混合和自适应方法,以增强模型的鲁棒性和适应性,使其在不断变化的现实医疗环境中保持性能。

第二类方法包括混合和自适应学习架构,旨在将适应性和鲁棒性融入心血管监测框架中。例如,一些研究结合了ML和DL模型,如等-XGB与CNN-RNN的组合[44],以提高敏感性和特异性。这些混合模型在受控环境中取得了高准确率,但缺乏增量学习能力,因此不适合内存和能量受限的平台,如可穿戴设备或嵌入式系统。更先进的系统结合了持续学习,如Corazon CDDM与VFDT的结合[50],能够进行增量更新并处理概念漂移。然而,这些方法往往依赖于计算密集型的重新训练,这可能会导致覆盖原有知识并加剧灾难性遗忘。即使某些方法采用了持续学习策略,如GFR,它们通常也仅在离线数据集上进行评估,这限制了它们在实时应用中的泛化能力。

第三类方法聚焦于实时嵌入式系统,这些系统在心血管监测中优先考虑低延迟和能源效率,这对于连续可穿戴健康监测至关重要。例如,Hassan等人(2018)[6]和Alfaras等人(2019)[63]提出了基于神经形态计算和库珀计算的架构,提供了快速推理速度。然而,这些系统缺乏适应性,无法进行在线学习。Poh等人(2023)[8]利用深度神经网络(DNN)对PPG数据进行分类,实现了高分类准确率,但模型在部署后仍然是静态的。Gu等人(2023)[7]在硬件加速器上实施了CNN,实现了超低延迟的ECG处理,但这些架构未设计用于部署后的再训练或模型更新。Xu等人(2024)[9]通过使用多通道电极阵列提高了信号质量,但未解决分类适应性问题。Rahman和Morshed(2024)[10]将预训练的人工神经网络(ANN)嵌入低功耗的SoC平台,展示了设备就绪性,但缺乏处理概念漂移的机制。Panwar等人(2025)[11]开发了一个基于Arduino的CNN系统,实现了合理的性能,但仍然缺乏在线学习或增量模型更新的支持。

这些挑战表明,目前的现有方法在满足高效实时漂移适应、长期知识保留和轻量级部署方面仍有不足。这凸显了开发智能健康监测解决方案的迫切需求,这些解决方案需要在现实生理数据环境中平衡适应性与操作效率。因此,本研究提出了一种新颖的自适应分类框架,ADWIN-GFR,旨在解决这些限制。该框架结合了CNN和GRU模型,利用CNN提取局部空间特征,GRU捕捉时间依赖性,同时引入了自适应漂移检测和缓解机制。这种设计特别适用于时间序列生物医学数据,其中波形形状和信号连续性具有诊断意义。

在本文中,我们详细描述了ADWIN-GFR方法的结构和工作流程,包括信号预处理模块、特征提取与预测模块、选择模块、漂移检测模块和适应模块。信号预处理模块负责增强信号的保真度和处理类不平衡问题,确保CNN-GRU模型获得高质量且平衡的ECG输入。特征提取与预测模块利用CNN和GRU模型提取有意义的特征并进行多类别心律失常分类。选择模块则负责维护一个具有代表性的过去样本子集,以支持持续学习,同时避免冗余。漂移检测模块基于ADWIN技术进行实时概念漂移检测,而适应模块则通过基于GFR的微调策略对模型进行更新,以适应新数据分布并保留之前学习的知识。

实验结果显示,ADWIN-GFR在实时、非静态ECG条件下显著提高了预测准确率、鲁棒性和适应性。例如,在MIT-BIH心律失常数据集上进行的实验表明,ADWIN-GFR的平均漂移后准确率为95.4%,宏F1分数为93.9%,并且灾难性遗忘评分仅为0.9%。它还表现出平均漂移检测延迟为12步,并实现了17.2%的适应增益。这些结果强调了ADWIN-GFR在部署于实际心脏监测系统中的潜力,包括可穿戴ECG设备和医院基于的患者监测平台。

在本研究中,我们还对ADWIN-GFR框架的各个组件进行了详细描述,并讨论了其在现实医疗环境中的应用。例如,信号预处理模块采用了带通滤波、中值滤波和归一化技术,以增强信号质量并处理类不平衡问题。选择模块通过预测方差、特征多样性和分布覆盖等三个标准来筛选代表性的样本,以确保模型在增量更新过程中保持鲁棒性。特征提取与预测模块结合了CNN和GRU,以捕捉ECG信号中的空间和时间特征。漂移检测模块基于ADWIN技术,能够在数据分布变化时及时识别并触发模型更新。适应模块则通过基于GFR的微调策略,使模型能够在不遗忘之前学习内容的情况下适应新数据。

为了验证ADWIN-GFR框架的性能和适应性,我们在MIT-BIH心律失常数据集上进行了广泛的实验。该数据集包含48个双通道ECG记录,每个记录约30分钟长,收集自47名受试者[52]。这些信号以360 Hz的采样率和11位分辨率采集,提供了高时间精度,适合时间和频率域分析。每个记录包括信号文件(.dat)、头文件(.hea)和专家标注的注释文件(.atr或.ann),符合AAMI EC57标准。该标准将心跳类型分为五个具有临床意义的类别:正常心跳(N)、房性期前收缩(S)、室性期前收缩(V)、融合心跳(F)和未知或无法分类的心律(Q)。通过选择排除了包含起搏心跳的记录(记录102、104、107和217),以确保数据的一致性。

ADWIN-GFR框架的主要贡献包括:动态漂移检测,通过ADWIN算法根据预测误差的统计变化调整其检测窗口;实时适应于漂移和知识保留,通过基于GFR的微调策略实现,确保模型在适应新数据时不会遗忘之前学到的知识;以及动态重放缓冲区,确保特征的多样性、分布的覆盖和数据的稳定性。通过这些模块的协同作用,ADWIN-GFR框架能够实现对动态数据环境的持续学习,从而提高预测的准确性和鲁棒性。

在实际医疗环境中,ECG信号的动态特性使得静态模型难以保持长期预测准确性。因此,ADWIN-GFR框架的设计目标是提高模型的适应性,使其能够在非静态环境中保持性能。此外,该框架还特别关注知识保留,通过GFR机制确保模型在适应新数据时不会遗忘之前学习的知识。这些设计使得ADWIN-GFR框架能够在现实应用中保持稳定和高效的预测能力。

尽管ADWIN-GFR框架在实验中表现出色,但仍然存在一些局限性。例如,模型对噪声或低质量ECG信号的鲁棒性可能不足,这些信号可能由运动伪影、基线漂移、传感器漂移或电极位移引起,从而影响漂移检测和适应过程,增加遗忘率并延长恢复时间。此外,模型在处理罕见或未被充分代表的心律失常类型时可能面临泛化能力的挑战,特别是在数据分布不平衡或患者个体差异较大的情况下。因此,未来的工作需要进一步改进模型,以增强其在复杂、现实环境中的鲁棒性和泛化能力。

展望未来,ADWIN-GFR框架的改进方向包括:增强对噪声和不确定数据的鲁棒性,如引入信号质量评估模块、不确定性感知建模和自适应滤波技术;提高模型在不同患者群体和临床环境中的泛化能力;优化模型以适应边缘计算和可穿戴设备,包括模型压缩策略如剪枝、量化和知识蒸馏;整合多模态数据,如血压、血氧饱和度(SpO2)或呼吸频率,以提高模型在预测心血管事件时的能力;采用联邦学习框架,以实现跨多个机构的模型训练,同时保护患者隐私;并在更大的多机构数据集上进行大规模临床验证,以确保其在不同医疗环境中的实际性能和临床可行性。

总的来说,ADWIN-GFR框架在实时心血管风险预测方面展现了良好的潜力,其设计能够适应动态、非静态的医疗环境,并在现实应用中保持高性能。未来的研究将致力于在不同ECG数据集上验证ADWIN-GFR的广泛适用性,特别是在具有不同采样频率和患者人口学特征的数据集中。此外,我们还计划在医院的远程监测系统中进行初步部署,并在门诊和移动护理环境中进行实时验证,以确保其在实际医疗环境中的可行性和可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号