基于机器学习与深度学习算法识别COVID-19后遗症风险因素:一项大规模电子健康记录研究

【字体: 时间:2025年09月28日 来源:Global Epidemiology CS5.0

编辑推荐:

  本研究针对COVID-19后遗症(PCC)风险预测难题,利用机器学习与深度学习模型分析美国2020-2022年电子健康记录(EHR)数据。研究发现年龄、Charlson合并症评分和感染后30天内医疗资源使用率是预测PCC发生的核心因素,其中弥散性血管内凝血(DIC)是心血管与继发性PCC的重要预测指标。该研究为个体化PCC风险预测提供了数据驱动解决方案。

  
随着COVID-19疫情持续蔓延,全球已有超过7.7亿确诊病例和700万死亡病例(截至2025年3月)。更令人担忧的是,近五分之一的美国康复者正遭受着COVID-19后遗症(Post-COVID-19 Conditions, PCC)的困扰——包括持续性疲劳、认知障碍、呼吸系统问题等异质性症状。世界卫生组织将PCC定义为SARS-CoV-2感染后的急性后遗症,但其发病机制复杂且缺乏明确诊断标准,给临床早期干预带来巨大挑战。
面对这一难题,来自辉瑞全球医学流行病学团队的研究人员开展了一项突破性研究。他们运用多种机器学习与深度学习算法,对美国Optum电子健康记录数据库中2020-2022年期间的686,070名COVID-19患者数据进行了深度挖掘,旨在定量评估新发PCC的进展规律并识别关键风险因素。这项重要研究成果已发表在《Global Epidemiology》期刊上。
研究团队采用了一系列前沿技术方法:基于大规模电子健康记录(EHR)数据构建回顾性队列,使用3折交叉验证确保模型稳健性,应用LASSO Cox回归、极端梯度提升(XGBoost)、生存支持向量机等六种机器学习模型,并采用自主生存(auton-survival)包实现深度Cox比例风险模型等深度学习算法。所有分析均针对全研究期和奥密克戎时代(2022年1月起)分别进行。
描述性结果显示:在31-120天观察期内,新发原发性PCC发生率为3.3%,心血管PCC为1.4%,肺部PCC为2.7%,继发性PCC为0.4%。中位发病时间稳定在64-67天之间。与未发生PCC的患者相比,PCC患者年龄更大(中位年龄54-65岁 vs 46-48岁)、Charlson合并症评分更高(1.0-2.3 vs 0.5-0.7),且更常伴有吸烟、BMI≥30、高脂血症或高血压等共病。
分析结果揭示:三种机器学习模型一致识别出年龄、Charlson合并症评分和感染后30天内医疗资源使用量是预测新发PCC的最强风险因素。具体而言,门诊、急诊和住院就诊量最高的患者,其新发原发性PCC风险分别比最低就诊量患者增加769%、601%和497%。值得注意的是,COVID-19疫苗接种在预测中未进入前十因素,这与疫苗接种率在PCC与非PCC组间无显著差异的发现一致(17.50% vs 17.55%)。
特别值得关注的是,基线期存在弥散性血管内凝血(DIC)成为心血管或继发性PCC的十大最强预测因子之一。在全研究期和奥密克戎时代,DIC在LASSO Cox模型中对心血管PCC的预测排名分别为第6和第48位,对继发性PCC的预测排名分别为第9和第100位。
模型性能评估表明,XGBoost consistently demonstrated the best performance,因此在个体化风险预测中被优先采用。所有模型在较短随访期(60天)表现出更高预测精度(AUC 0.75-0.85),随着预测时间延长精度逐渐下降。研究人员还提供了直观的个体风险可视化方案,展示了每位患者在随访期间免于新发原发性PCC的概率曲线。
讨论与结论部分强调:本研究通过多模型验证证实了Charlson合并症评分、年龄和医疗使用频率的预测价值,为临床早期识别高风险患者提供了实用工具。感染后30天内的高医疗资源使用可能反映了急性期疾病严重程度,从而与后续PCC发展密切相关。这些发现与Pfaff等(2022)关于年龄和门诊使用率是长新冠预测关键因素的研究一致,也支持了Sudre等(2021)关于年龄是症状持续重要预测因子的结论。
DIC作为强预测因子的发现具有重要临床意义,这与先前关于DIC显著影响COVID-19预后的研究相吻合。方法学上,XGBoost的优异表现与"长新冠计算挑战赛"结论一致,但不同于Cordelli等(2023)支持向量机为最优模型的报道。
研究的创新性在于不仅探索了多类机器学习模型,还考虑了连续时间事件终点,并专门进行了奥密克戎时代亚组分析。模型在感染后较短时间窗内预测精度最高的特点,恰好与大多数PCC患者在感染后44-92天内发病的规律相契合,使模型具备临床实用价值。
研究人员同时指出了研究的局限性:观察性数据无法得出因果结论;主要基于 insured 美国患者的数据可能限制结论外推性;EHR数据存在医疗使用偏倚;早期未检测患者未被纳入;疫苗保护效应统计效能有限;无法追踪既存症状患者的变化轨迹。
未来研究方向包括整合遗传数据加强因果推断、纳入急性期特征、重复感染、病毒载量和变异株信息以提高预测精度,以及通过无监督聚类识别同质患者亚群。这项研究为理解PCC流行病学特征和实现个体化风险预测迈出了重要一步,为后续干预研究奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号