基于遗传编程的深度学习集成模型:心电扫描图中可解释性心律失常检测新方法
《npj Digital Medicine》:Interpretable arrhythmia detection in ECG scans using deep learning ensembles: a genetic programming approach
【字体:
大
中
小
】
时间:2025年11月07日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对心电图(ECG)分析中存在的可解释性差和泛化能力不足等问题,开发了基于遗传编程的深度学习集成模型GIRAFFE,用于心律失常检测和房颤(AF)复发预测。研究利用中英两国多中心临床数据验证表明,该模型在数据集G和L上的ROC-AUC分别达到0.980和0.799,显著优于基线模型(p=0.03,p=0.07),并通过可解释人工智能(XAI)技术提供了直观的决策依据,为临床推广AI辅助诊断工具提供了重要技术支撑。
心血管疾病至今仍是发达国家的主要死亡原因,每年夺去超过310万欧洲人的生命。其中约半数心血管死亡是猝死,而约80%的猝死由心律失常引起。心电图(ECG)作为最常用、最经济的非侵入性心律失常诊断工具,在实际临床应用中却面临诸多挑战:不同医疗机构设备差异导致的数据异质性、传统机器学习方法泛化能力不足,以及"黑箱"模型缺乏临床可解释性等关键问题。
针对这些痛点,发表在《npj Digital Medicine》上的这项研究提出了一种创新解决方案——基于遗传编程的深度学习集成框架GIRAFFE。该研究团队来自波兰西里西亚理工大学、利物浦大学等多所知名机构,他们巧妙地将遗传编程算法与深度学习模型相结合,构建了一个既能保持高精度又具备良好可解释性的心律失常检测系统。
研究团队采用了严格的多中心验证策略,分别使用中国广东省人民医院的数据集G(1172名患者,71.4±6.3岁,66%女性)和英国利物浦心胸医院的数据集L(909名患者,60.5±10.71岁,33%女性)进行模型训练与测试。这两个数据集不仅在地理分布上具有代表性,更在临床任务上形成互补:数据集G侧重于当前心律失常的诊断检测,而数据集L则聚焦于导管消融术后房颤复发的预测这一更具挑战性的预后问题。
研究采用端到端的深度学习策略,基于InceptionNetV3和EfficientNet两种架构,分别使用Sigmoid和广义极值分布(GEV)激活函数构建基础模型。通过遗传编程算法GIRAFFE自动选择最优基础模型并演化其融合策略,最终集成24个个体模型。利用局部可解释模型无关解释(LIME)和综合梯度(IG)两种可解释人工智能(XAI)方法生成决策依据图,并通过第二矩缩放方法整合解释结果。
在数据集内部验证中,GIRAFFE集成模型表现出显著优势。对于数据集G,最佳GIRAFFE集成模型的ROC-AUC达到0.980(95%置信区间:0.956-0.998),较基线模型的0.961有显著提升(p=0.03)。在数据集L上,GIRAFFE的ROC-AUC为0.799(95%置信区间:0.737-0.856),相比基线模型的0.773呈现边际显著性改善(p=0.07)。特别值得注意的是,在房颤复发预测这一特定临床场景中,GIRAFFE集成模型的PR-AUC达到0.765(95%置信区间:0.669-0.849),优于个体模型的0.737(95%置信区间:0.648-0.821)。
研究揭示了模型跨数据集泛化的重大挑战。当使用数据集L训练的模型测试数据集G时,ROC-AUC骤降至0.494(95%置信区间:0.390-0.603);反之,从数据集G到数据集L的测试也出现性能下降至0.556(95%置信区间:0.521-0.595)。这种性能衰减源于三个主要的异质性来源:临床任务差异(诊断vs预后)、患者人口统计学差异(平均年龄相差约10岁,性别比例不同)以及数据采集和格式的差异。
通过XAI技术,研究团队成功可视化了模型的决策依据。结果显示,GIRAFFE集成模型在分析心电图时能够更集中地关注与心律失常相关的关键区域,如P波形态和节律不规则处。与基线模型相比,集成模型产生的概率分布更加尖锐,在高置信度区域具有更集中的概率质量,表明其预测更加确定。
针对数据集L中患者有多次心电图扫描的特点,研究还评估了模型在患者层面的预测一致性。GIRAFFE集成模型在81.5%的病例中对所有扫描给出了一致预测,高于个体模型的75.0%。这种更高的一致性反映了集成模型在应对同一患者不同心电图表现异质性方面的优势。
本研究最大的价值在于其严谨的多中心、跨数据集验证方法,真实反映了人工智能模型在临床环境下面临的泛化挑战。GIRAFFE集成框架不仅在心律失常检测方面表现出色,更重要的是通过可解释人工智能技术提供了临床可理解的决策依据,为建立医患对AI辅助诊断工具的信任奠定了基础。
研究同时指出了当前存在的局限性,包括数据集规模相对较小、缺乏针对心电图扫描图像分类的预训练模型,以及跨区域泛化能力有限等问题。这些挑战也为未来研究指明了方向,如利用XAI技术深入理解模型决策过程,针对不同数据分布进行适当的预处理或模型微调。
随着欧盟人工智能法案等法规的出台,医学领域的高影响度AI解决方案必须包含一定程度的透明度。这项研究通过遗传编程构建的深度学习集成模型,不仅实现了心电图扫描图中心律失常的准确识别,还通过局部可解释人工智能技术使预测过程变得可解释,为推动AI在临床环境中的实际应用迈出了重要一步。未来,研究人员计划开展大规模平均意见分数(Mean Opinion Score)实验,邀请不同经验水平的心脏病专家评估解释结果的临床效用,进一步验证这一方法的实际价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号