《Drug Resistance Updates》:Automated diagnosis of chronic obstructive pulmonary disease using deep learning applied to electrocardiograms
编辑推荐:
本研究针对慢性阻塞性肺疾病(COPD)早期诊断困难、资源消耗大的临床痛点,创新性地将深度学习技术应用于标准12导联心电图(ECG)分析。研究团队利用超过76万份ECG数据,开发了基于ConvNeXt Large架构的卷积神经网络模型,在内部测试、外部医院队列及英国生物银行(UKBB)队列中均展现出稳健的判别性能(AUC 0.75–0.82)。模型预测与肺功能指标(FEV1/FVC)呈负相关,并通过可解释性分析揭示了P波改变等COPD相关心电特征。该研究为利用普及、低成本的心电图进行COPD早期筛查提供了全新路径,具有重要的临床转化潜力。
在全球范围内,慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease, COPD)是导致死亡和残疾的主要原因之一,其典型特征是持续存在的气流受限。然而,COPD的早期诊断面临着巨大挑战。一方面,该病早期症状(如慢性咳嗽、咳痰、气短)缺乏特异性,容易被忽视或误诊为其他呼吸道疾病;另一方面,当前确诊COPD的金标准——肺功能检查(特别是使用支气管舒张剂后FEV1/FVC < 0.7),以及高分辨率胸部CT,对设备、操作人员及费用均有较高要求,难以作为大规模筛查工具。更令人担忧的是,目前尚无针对无症状人群的COPD筛查指南,这导致许多患者从出现症状到获得明确诊断往往延迟数年,错过了通过戒烟、药物治疗和肺康复等手段延缓疾病进展、改善生活质量和降低医疗成本的最佳干预时机。
有趣的是,COPD并非一个孤立的肺部疾病,它对心脏,尤其是右心功能,有着深远的影响。长期的气道阻塞和慢性缺氧会导致肺动脉压力升高(即肺动脉高压),这给负责向肺部泵血的右心室带来了沉重负担。久而久之,右心室会代偿性增厚(右心室肥厚),最终可能发展为右心衰竭,即肺源性心脏病。这种心-肺之间的紧密联系,在临床上可以通过一种极为常见、无创且低成本的工具——心电图(Electrocardiogram, ECG)——捕捉到蛛丝马迹。然而,传统的心电图解读主要聚焦于心肌缺血和心律失常等典型心脏问题,对于COPD所引起的相对细微的心电改变,即使是经验丰富的医生也可能难以识别或解读。这些改变可能潜藏在常规分析视野之外,但却为利用人工智能(Artificial Intelligence, AI)技术挖掘ECG中蕴含的深层信息提供了绝佳的机会。
深度学习(Deep Learning)作为AI的一个强大分支,特别擅长从复杂数据中自动学习并识别出人眼难以察觉的微妙模式。那么,能否训练一个深度学习模型,让它从看似普通的心电图中,“读出”患者是否患有COPD的迹象呢?这正是由Akhil Vaid、Jiya Sharma、Joy Jiang、Joshua Lampert、Ashwin Sawant、Edgar Argulian、Stamatios Lerakis、Pranai Tandon、Patricia Kovatch、Charles Powell、Charles B. Cairns、Girish N. Nadkarni、Monica Kraft等研究人员组成的团队所探索的核心问题。他们开展了一项大规模研究,旨在开发和验证一种基于卷积神经网络(Convolutional Neural Network, CNN)的模型,用于通过标准12导联心电图自动诊断COPD。
研究方法概览
为了回答上述科学问题,研究人员开展了一项基于大规模、多中心真实世界心电图数据的回顾性队列研究。其核心方法可概括为以下几点:
- 1.
数据来源与队列构建:研究数据主要来源于美国纽约西奈山健康系统(Mount Sinai Health System)五家医院2006-2023年间存储于GE MUSE系统中的标准10秒12导联心电图原始波形数据,以及英国生物银行(UK Biobank, UKBB)的队列数据。研究共纳入了来自18,225例COPD患者的208,231份心电图,并按照年龄、性别和种族匹配了49,356例对照(共552,771份心电图),总计分析超过76万份心电图。数据被划分为内部训练集、内部测试集、以及来自另一家西奈山医院(Morningside)和UKBB的两个独立外部验证集,以确保模型评估的严谨性。
- 2.
模型开发与训练:研究采用先进的ConvNeXt Large卷积神经网络架构,并利用迁移学习(Transfer Learning)技术。研究人员将原始的1D心电图信号预处理(包括带通滤波和基线漂移校正)后转换为2D图像格式输入模型进行训练。模型使用Adam优化器和交叉熵损失函数进行训练,并通过在训练过程中保留验证集上性能最佳的模型快照来防止过拟合。
- 3.
性能评估与统计分析:模型性能主要通过受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)和精确率-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)等指标进行评估。此外,还进行了亚组分析(如按性别、心律失常类型分层)、时间序列分析(评估诊断前不同时间点的模型表现)、Cox比例风险模型分析(评估模型预测未来COPD诊断的风险比),并将模型预测概率与肺功能指标(如FEV1%, FVC%, FEV1/FVC)进行相关性分析。
- 4.
模型可解释性:应用FullGrad技术生成显著性图(Saliency Maps),以可视化模型在进行COPD预测时最关注的心电图区域,从而增强模型决策过程的透明度和可信度。
研究结果
性能评估:模型在多个队列中表现稳健
研究人员在三个独立的测试队列中评估了模型的诊断性能。在内部测试集中,模型区分COPD患者与对照的AUROC达到了0.80(95%置信区间CI: 0.80–0.80)。在第一个外部验证集(西奈山Morningside医院)中,AUROC进一步提升至0.82(95% CI: 0.81–0.82)。即使在完全独立的、基于人群的UKBB队列中,模型也取得了0.75(95% CI: 0.71–0.78)的AUROC值,证明了其良好的泛化能力。此外,在一个具有明确吸烟史(≥10包年)的患者亚组中,模型性能与基于ICD编码的整体队列相当(AUROC 0.80),表明模型捕捉的是生理信号而非仅仅依赖诊断编码。模型性能在不同性别间保持一致,并且在患有各种类型心律失常(如房性心律失常、室性心律失常、传导异常等)的患者亚组中依然稳健(AUROC 0.77–0.81),说明其识别COPD的能力不受心律异常的显著干扰。
时间动态与预测价值:模型信号随诊断临近而增强
一项关键的时间序列分析揭示了模型预测的动态变化。研究人员发现,模型输出的COPD阳性概率,随着心电图记录时间点距离临床诊断日期的接近而逐渐升高。在诊断前6-9个月采集的心电图上,模型的平均预测概率为0.42,而当心电图采集时间早于诊断日期15个月或以上时,该概率降至0.28。相应地,模型区分未来COPD患者与对照的能力(AUROC)也从诊断前6-9个月的0.76,下降到诊断前15个月以上的0.57(接近随机水平)。这表明模型更擅长识别已经存在明显病理生理改变、接近临床诊断的COPD,而非预测多年后的新发病例。更重要的是,对具有历史心电图和完整吸烟史数据的患者进行的Cox比例风险模型分析显示,模型预测的COPD概率是未来确诊COPD的最强预测因子,其风险比(Hazard Ratio, HR)高达10.79(95% CI: 7.81–14.91),甚至超过了吸烟包年数(HR = 3.96)和性别等因素。
与肺功能的相关性:连接心电信号与肺部病理
为了验证模型预测的生理学基础,研究人员将模型对心电图的预测概率与同期(6个月内)的肺功能检查结果进行了相关性分析。结果显示,模型预测的COPD概率与反映气流受限严重程度的指标呈负相关。在FEV1/FVC ≤ 0.7的患者中,模型概率与%预计FEV1值的相关系数为-0.33,与%预计FVC值的相关系数为-0.25,与FEV1/FVC比值的相关系数为-0.26。在那些进一步确认存在不可逆气流阻塞(支气管舒张剂后FEV1/FVC仍<0.7)的患者中,这些负相关性更强(例如与FEV1/FVC的相关系数达-0.34)。这表明模型预测的概率越高,患者的肺功能受损越严重,为模型捕捉到的电生理信号与肺部客观病理改变之间的联系提供了有力证据。
模型可解释性:聚焦心房活动
通过生成显著性热图并将其叠加在原心电图上,研究人员得以窥探模型做出决策的“依据”。分析发现,模型在判断COPD时,其注意力显著集中在P波及其邻近的心房活动区域。例如,在一些案例中,双峰P波(bifid P waves)被模型认为是支持COPD诊断的重要特征。这一发现与COPD导致右心房压力负荷增加、进而可能引起P波形态改变的已知病理生理机制相吻合,增加了模型决策的生物学合理性。
研究结论与意义
本研究成功地开发并验证了一个基于深度学习的心电图分析模型,该模型能够以较高的准确度识别患有或处于COPD风险中的个体。研究的核心结论在于,标准12导联心电图中所包含的信息,通过先进的AI算法解析,可以揭示出与COPD相关的、人眼难以识别的独特模式。
这项研究的成功具有多重重要意义。首先,它开创了一种全新的、非侵入性的COPD筛查和辅助诊断思路。心电图作为一种极其普及、低成本、操作简便的检查手段,在各级医疗机构甚至未来可整合入可穿戴设备中,这使得基于心电图的AI筛查工具具备极高的可及性和可扩展性。其次,该模型表现出强大的泛化能力,在来自不同医院系统甚至不同国家(美国与英国)的独立队列中均保持稳定性能,证明了其临床应用的潜在普适性。第三,模型预测与肺功能指标的相关性及其时间动态特征,表明它捕捉的是COPD进展过程中真实的、逐渐累积的心肺相互作用病理生理信号,而非简单的数据关联。最后,模型在诊断前数月即显示出预测信号,为实施“机会性筛查”提供了可能——即在患者因其他原因(如心血管问题)进行心电图检查时,同步评估其COPD风险,从而有望显著缩短诊断延迟。
当然,这项研究也存在一些局限性,例如吸烟史数据的不完整性、模型对接近诊断期病例更敏感、以及尚未完全排除所有共存疾病(如心力衰竭)的潜在混杂影响等。未来的研究可以探索结合吸烟史等风险因素以进一步提升早期检测能力,并在前瞻性临床环境中验证该工具的实际效能和对患者结局的影响。
总而言之,这项研究有力地证明了人工智能赋能的心电图分析,有望成为对抗COPD这一全球重大健康挑战的有力新武器。通过将最前沿的AI技术与最常规的医疗检查相结合,它为实现COPD的早期、普及化筛查点亮了一条充满希望的道路,最终可能帮助数百万患者更早地获得诊断和干预,改善其长期预后。