基于心电图的无监督深度学习实现可扩展的人类疾病剖析

【字体: 时间:2025年01月23日 来源:npj Digital Medicine 12.4

编辑推荐:

  心电图(ECG)价格低廉且应用广泛,但能否用于检测多种人类疾病尚不明确。研究人员开发深度学习去噪自编码器,分析 ECG 编码与约 1600 种疾病的关联。结果发现众多关联,且该模型优于传统 ECG 间隔模型,有助于疾病剖析。

  在医学领域,心电图(Electrocardiogram,ECG)是一项常用的检查手段,自 20 世纪初问世以来,从最初主要用于心律失常检测,逐渐拓展到能识别冠状动脉疾病和其他心脏结构异常等。近年来,人们还发现非心脏疾病也会使 ECG 波形产生特征性变化。同时,机器学习的发展揭示了 ECG 蕴含着超越传统临床解读的诊断和预后信息。然而,人类疾病种类繁多,究竟有多少疾病能通过表面 ECG 检测出来,这仍是一个未解之谜。
为了探索这个问题,来自麻省理工学院和哈佛大学博德研究所(The Broad Institute of MIT and Harvard)、马萨诸塞州总医院(Massachusetts General Hospital)等机构的研究人员开展了相关研究。他们的研究成果发表在《npj Digital Medicine》上,为医学领域对 ECG 的应用开辟了新的方向。

研究人员采用了多种关键技术方法。首先,利用来自社区护理队列项目(Community Care Cohort Project,C3PO)和英国生物银行(UK Biobank)的多个大型数据集,这些数据集包含了丰富的个体人口统计学和临床信息以及 12 导联 ECG 数据。其次,训练密集连接的卷积自编码器对 12 导联和单导联 ECG 进行编码和解码,并通过贝叶斯超参数优化选择模型架构超参数。然后,将国际疾病分类(ICD)代码映射到公开的 Phecode 库,以此定义疾病表型。最后,运用逻辑回归模型和 Cox 比例风险模型分别进行现患疾病和 incident 疾病的关联测试,并通过荟萃分析整合结果。

研究结果主要通过以下几方面呈现:

  • 研究样本和自编码器开发:使用三个包含超 150,000 人的非重叠独立数据集。用 MGH - C3PO 数据集中的 ECG 训练自编码器,在不同测试集上进行测试,结果显示该自编码器能高保真地重建新的 ECG,如在 MGH - C3PO 测试集中,皮尔逊相关系数达 0.9956(95% CI 0.9931 - 0.9972)。
  • 表型向量推导和 ECG 投影:将 MGH - C3PO 数据集中 50% 的 ECG 映射到 1,866 个 Phecodes 库,推导表型向量,然后对其余未标记的 ECG 进行编码,确定其在各表型向量上的位置,生成疾病特异性向量分量得分。
  • 潜在空间 PheWAS:在多个数据集上进行 PheWAS 并荟萃分析结果。12 导联模型中,观察到 643 个 Phecodes 与潜在空间位置和疾病状态显著相关,单导联模型中有 565 个。循环系统疾病的显著关联最为丰富,如 12 导联模型中,循环系统类别中 82% 的 Phecodes 存在显著关联。此外,还发现了一些非心脏疾病与 ECG 的关联,如 “肥胖”“糖尿病” 等。
  • ECG 间隔 PheWAS:与基于 ECG 间隔的模型相比,潜在空间模型在总体和各疾病类别中显示出更多的显著关联。
  • Phecode 疾病的判别:包含 ECG 向量分量得分的逻辑回归模型在判别疾病方面表现更优,尤其在循环系统和呼吸系统疾病中,受试者工作特征曲线下面积(AUC)有显著增加。
  • 潜在空间 incident 疾病 PheWAS:在 12 导联 ECG 模型的探索性分析中,发现向量分量得分与 457 种(33.4%)测试的 incident 疾病显著相关,关联在循环、内分泌 / 代谢和消化系统疾病中最为丰富。
  • 基于模型的疾病特异性中位波形:对于某些疾病,模型推导的特征与预期相符,如左束支传导阻滞表现为 QRS 增宽等;但对于部分疾病,重建的 ECG 形态差异可能不明显,如肥厚型心肌病,不过潜在空间对疾病的细微表现仍敏感。
  • 患者报告卡原型:通过生成基于 ECG 的患者报告卡原型,展示了 ECG 作为数字生物标志物的潜力,可估计疾病概率。

研究结论和讨论部分表明,该研究利用自编码器深度学习模型对 ECG 进行编码和解码,构建了与多种人类疾病风险相关的多维潜在空间。与标准 ECG 间隔相比,潜在空间模型揭示了更多疾病关联,为探索 ECG 中包含的疾病信息提供了新方法。此外,研究还暗示了潜在空间建模在预测 incident 疾病方面的潜在价值,并且这种将临床状态映射到潜在空间的方法可能拓展到其他诊断方式。然而,研究也存在一些局限性,如缺乏对疾病状态未知个体的前瞻性验证、使用线性探针定义表型向量可能无法捕捉非线性关系等。但总体而言,该研究为未来基于 ECG 的可扩展疾病剖析提供了重要的理论和实践基础,有望推动医学诊断领域的进一步发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号