集成机器学习与贝叶斯分析表明,心房颤动是预测新冠重症结局的关键因素

《Clinical and Translational Science》:Integrative Machine Learning and Bayesian Analysis Reveals Atrial Fibrillation as a Key Predictor of Severe COVID-19 Outcomes

【字体: 时间:2025年11月22日 来源:Clinical and Translational Science 2.8

编辑推荐:

  本研究通过回顾性多中心队列分析,结合统计、机器学习和贝叶斯方法,探讨瑞德西韦治疗住院COVID-19患者的关键结局(包括死亡)预测因子。发现高龄(≥65岁)、房颤和肾病是显著预测因素,其中房颤在所有分析模型中一致显示最强关联(调整OR 5.121),支持基于房颤的临床风险分层策略。机器学习模型(LightGBM AUROC 0.705,Elastic Net 0.698)和贝叶斯分析均验证了房颤的独立预后价值。

  在2021年至2022年期间,一项研究分析了接受瑞德西韦治疗的1628名住院新冠患者,旨在识别与严重不良结局(包括死亡)相关的预测因素。研究采用了统计学、机器学习和贝叶斯方法,发现14.5%的患者经历了严重不良结局或死亡。研究指出,年龄≥65岁、房颤和肾病是显著的预测因素,其中房颤在所有分析方法中均被确认为最强的预测变量之一。这表明房颤在临床风险评估中具有重要价值。

### 研究背景与意义

新冠自2019年末爆发以来,迅速演变为全球性的公共卫生危机。截至2025年初,全球累计确诊病例超过7.6亿,死亡人数约为690万,死亡率约为0.9%。尽管全球已接种了大约130亿剂疫苗,但新的SARS-CoV-2变种仍对公共卫生构成挑战,包括更高的传播力、改变的临床严重程度以及对疫苗效果的削弱。因此,继续研究新冠患者的关键预测因素和风险因素对于改善临床管理、优化资源分配和降低死亡率至关重要。

早期识别那些面临高风险的新冠患者,尤其是那些发展为急性呼吸衰竭、败血性休克或多重器官功能障碍的患者,是及时干预、提升治疗效果和降低死亡率的关键。此前的研究已经指出,年龄、男性性别、慢性疾病(如糖尿病和心血管疾病)、肥胖、炎症标志物(如C反应蛋白、D-二聚体)以及免疫相关标志物(如淋巴细胞减少)是预测严重新冠结局的重要指标。然而,由于患者群体和病毒变种之间的差异,仍然需要进一步研究以确定特定人群的风险因素。

在韩国,2021年国家疾病控制与预防机构(KDCA)将瑞德西韦用于确诊新冠并符合肺炎需要吸氧治疗(室息时血氧饱和度≤94%、影像学肺炎证据且不需要侵入性机械通气或ECMO的住院患者。随后,2022年1月的指南将瑞德西韦的使用扩展到中度至轻度新冠患者,这些患者具有高进展为严重疾病的潜在风险,如年龄≥60岁或存在基础疾病(如慢性呼吸系统或心血管疾病、糖尿病、肥胖、免疫功能低下)。对于这些患者,推荐的瑞德西韦疗程为3天(4瓶),并在症状出现后7天内开始治疗。这些指南反映了韩国在新冠治疗中不断优化策略,通过基于严重程度和个体风险特征的靶向治疗方式来提高临床效果。

与此同时,机器学习作为一种利用人工智能的先进分析方法,因其能够处理复杂数据并提供比传统统计方法更精确的预测能力,逐渐被应用于医疗领域。研究表明,机器学习模型在预测新冠患者的死亡、ICU入住和疾病进展方面具有显著的预测准确性。因此,基于机器学习的预测模型可以为临床决策提供支持,通过提前识别高风险患者,帮助医生制定更加个性化的治疗策略。

### 研究方法与数据收集

本研究是一项回顾性多中心随访研究,包括在韩国两家医院接受瑞德西韦治疗的住院新冠患者。两家医院分别为Bestian医院(韩国青州)和 Chungbuk National University Hospital(韩国青州),研究时间从2021年1月至2022年8月。纳入标准为所有接受瑞德西韦治疗的住院新冠患者,年龄≥18岁。瑞德西韦的剂量根据患者病情调整,包括至少3天的疗程(4瓶),初始剂量为200毫克,随后每日100毫克。对于严重新冠患者(如肺炎需要吸氧治疗),通常采用5天疗程(6瓶),在临床判断下可延长至10天(11瓶)。2022年1月之后,指南将瑞德西韦用于中度至轻度新冠患者,这些患者具有高进展为严重疾病的潜在风险,如年龄≥60岁或存在基础疾病(如慢性呼吸系统或心血管疾病、糖尿病、肥胖、免疫功能低下)。对于这些患者,推荐的瑞德西韦疗程为3天(4瓶),并在症状出现后7天内开始治疗。

排除标准包括年龄小于18岁、数据不完整、治疗中断或缺乏完整的实验室检查结果(如血常规、肝功能检查、炎症标志物和肾功能检查)。研究数据来自电子病历系统,涵盖基线特征,包括人口学信息、基础疾病和治疗前后的药物使用情况。基线变量包括性别、年龄、体重指数(BMI)、吸烟史、饮酒史、过敏史、高血压、糖尿病、癌症、神经系统疾病(如痴呆、帕金森病)及其他相关慢性疾病。药物使用史包括抗高血压药物(如ACEI/ARBs、钙通道阻滞剂、β受体阻滞剂)、抗血小板药物、抗凝剂(如直接口服抗凝剂)、降脂药物、降糖药物、胃肠道药物(如质子泵抑制剂、H2受体拮抗剂)、精神类药物(如苯二氮?类药物、选择性血清素再摄取抑制剂)、类固醇和免疫抑制剂。此外,疫苗接种记录、处方记录和联合用药史也被纳入分析。

### 统计分析与机器学习方法

研究采用了多种统计和机器学习方法进行分析。首先,使用卡方检验或费舍尔精确检验比较分类变量在严重结局与非严重结局患者之间的差异。随后,进行多变量逻辑回归分析,以识别与严重结局相关的独立风险因素。在单变量分析中,统计学显著性(p<0.05)的变量,以及具有临床意义的混杂因素,被纳入多变量分析。为减少多重共线性,筛选出与疾病高度相关的变量,并优先考虑疾病变量而非相关药物。最终模型通过Hosmer-Lemeshow检验评估拟合优度,所有统计分析均使用SPSS软件进行。

在机器学习部分,研究采用SHAP值进行特征选择,以确定与严重结局相关的变量。SHAP基于合作博弈理论,能够量化每个特征的贡献,并特别适用于树模型如LightGBM。为了构建一个简洁的模型,研究选取了SHAP值排名前20的变量(详见表S1)。此外,还使用Boruta算法对这些特征进行验证,该算法能够独立识别出9个变量,所有变量均与SHAP选择的变量重叠。这一结果进一步验证了房颤作为关键预测变量的重要性。

研究评估了10种监督机器学习算法,包括逻辑回归、弹性网络、支持向量机(SVM,线性核和RBF核)、随机森林、XGBoost、LightGBM、CatBoost、K近邻和朴素贝叶斯。在建模前,对92个缺失值进行了处理,将其设为0,表示相应因素不存在。每个变量的缺失值数量和百分比详见表S2。为处理类别不平衡问题,研究采用了内部加权策略,如class_weight='balanced'、scale_pos_weight或is_unbalance=True。所有数据划分均采用分层方式,以保持原始类别分布。关于类别不平衡处理的详细信息见补充文件。

模型训练使用了重复分层5折交叉验证,重复100次。模型性能通过ROC曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)进行评估,并在每次验证中计算使F1分数最大的阈值。对于传统模型(逻辑回归、弹性网络、随机森林、SVM),采用网格搜索优化超参数;对于LightGBM模型,则使用Optuna进行优化。超参数调整的详细信息见表S3。

为提高预测性能和稳健性,研究还实施了集成学习技术。例如,通过概率平均构建了一个软投票分类器,结合LightGBM、XGBoost和弹性网络模型。此外,构建了一个堆叠集成模型,使用LightGBM、XGBoost、CatBoost和弹性网络作为基模型,并使用逻辑回归作为元学习器,基于交叉验证预测结果进行训练。所有集成模型均采用相同的重复交叉验证方案进行训练和评估,模型性能以95%置信区间(CI)报告。所有模型均使用Python的scikit-learn框架实现。

### 贝叶斯逻辑回归分析

贝叶斯逻辑回归分析使用PyMC框架进行,以评估临床变量与结局之间的关联。截距和系数均采用弱信息性正态(0,10)先验分布。后验推断采用No-U-Turn Sampler(NUTS),这是一种哈密顿蒙特卡洛方法,使用了三个链,每个链包含3000个后温阶段的样本。模型收敛性通过Gelman-Rubin统计量(R?<1.01)和充分的有效样本量进行评估。后验中位数和95%可信区间被报告并转换为调整后的比值比(OR)。

### 研究结果

在1862名初始纳入的患者中,234名因年龄不足18岁、数据不完整或治疗中断而被排除。最终分析纳入了1628名接受瑞德西韦治疗的患者,其中235名(14.5%)经历了严重不良结局或死亡,包括46名需要连续肾脏替代治疗(CRRT)和14名需要体外膜肺氧合(ECMO)的患者。研究结果显示,年龄≥65岁、房颤和肾病是与严重不良结局或死亡显著相关的风险因素。此外,BMI≥23 kg/m2、饮酒史、高血压、糖尿病、缺血性心脏病、慢性阻塞性肺病(COPD)、肺部疾病、良性前列腺增生(BPH)以及抗血小板药物使用均与严重不良结局或死亡相关(所有p<0.05)。

SHAP总结图(图1)显示,房颤与SHAP值的正相关最强,而直接口服抗凝剂(DOAC)表现出负相关。研究使用SHAP和Boruta算法对特征进行选择,其中Boruta算法独立识别出9个变量,均与SHAP选择的变量重叠。这一结果进一步支持房颤在预测严重不良结局中的重要性。此外,贝叶斯逻辑回归分析(表3)显示,房颤的调整后比值比(OR)为5.121(95%可信区间,1.804–14.874),而年龄≥65岁与严重不良结局或死亡的调整后OR为4.169(2.64–6.708)。其他变量如帕金森病、肺部疾病、肾病、缺血性心脏病、免疫抑制剂、BPH和利尿剂的调整后OR分别为2.225、1.759、1.713、1.63、1.587、1.5和1.27,但这些变量的可信区间均包含1,表明其与严重不良结局或死亡的关联不显著。

### 讨论与临床意义

本研究发现,房颤在所有分析方法中均被确认为与严重不良结局或死亡高度相关的风险因素。这一发现不仅支持了房颤在临床风险评估中的重要性,还强调了其在新冠患者中的潜在作用。尽管已有研究指出房颤可能与新冠的不良结局有关,但大多数研究基于西方人群的登记或索赔数据,缺乏详细的临床和时间信息。此外,许多研究仅关注单一机构的重症患者,这限制了其结果的普遍性。相比之下,本研究使用了来自多个中心的电子病历数据,涵盖了广泛的疾病严重程度和不同的医疗环境。这种设计使得研究能够包括详细的实验室检查结果、合并症和治疗数据,从而更全面地评估房颤的独立预后作用。通过使用来自不同临床环境的详细电子病历数据,本研究提供了新的证据,支持房颤作为新冠预后因素的可靠性和广泛适用性。

此外,贝叶斯逻辑回归分析也支持了房颤与严重不良结局或死亡之间的关联。尽管DOAC和H2受体拮抗剂(H2RAs)的关联未达到统计学显著性,但其后验分布显示出风险降低的趋势。这表明,尽管这些药物可能对房颤患者有潜在的保护作用,但其影响仍需进一步研究。值得注意的是,尽管机器学习模型的预测性能为中等,但其在确认和优先排序关键预测变量(如房颤)方面的能力,进一步验证了其在临床中的价值。机器学习模型的特征重要性排名与逻辑回归中的统计显著性一致,这强化了这些风险因素的可靠性。此外,SHAP分析使得对个体层面风险贡献的直观解释成为可能,从而增强了临床决策的实用性和个性化水平。

### 机制与潜在影响

新冠本身会增强血栓-炎症级联反应,加剧凝血功能,并可能增加房颤患者的心脏栓塞风险。机制研究表明,SARS-CoV-2会触发显著的促凝血状态,表现为内皮激活和凝血级联反应过度激活。这一发现与韩国新冠临床指南中推荐的抗凝治疗策略相吻合,即对于需要重症监护的新冠患者,推荐预防性剂量的肝素(未分馏或低分子量);对于没有抗凝禁忌症的非重症患者,推荐治疗性剂量的肝素。因此,在房颤患者中,新冠引发的炎症和凝血反应进一步增加了血栓形成和随后心脏栓塞的风险。进一步的研究需要明确其潜在的机制。

本研究还发现,年龄≥65岁是新冠患者严重不良结局或死亡的重要风险因素。衰老伴随着免疫衰老,表现为免疫系统功能逐渐下降。具体而言,老年人的幼稚T细胞数量减少、B细胞反应性降低以及先天免疫反应受损,这些因素共同削弱了他们对新感染的防御能力。在新冠的背景下,年龄相关的干扰素信号传导延迟和T细胞反应迟滞会导致更高的初始病毒载量和延迟的病毒清除,从而显著增加老年患者的疾病严重程度和死亡风险。例如,一项大型多中心队列研究发现,老年新冠患者表现出异常的免疫反应,包括干扰素反应延迟、幼稚T细胞比例降低和免疫细胞耗竭增加,这表明老年患者的适应性免疫功能受损在疾病严重程度中起关键作用。此外,观察性研究还表明,年龄增长与病毒RNA持续时间延长有关,这可能是由于T细胞反应减弱所致。这种延迟的病毒清除直接加剧了疾病严重程度,并增加了老年患者的死亡风险。

### 研究的局限性

本研究存在一些局限性。首先,其回顾性设计可能引入选择偏差和混杂效应。尽管采用了多中心研究方法,但不同机构的临床实践和患者特征可能存在差异,从而影响数据的一致性。其次,缺乏详细的基因、生物标志物和实验室数据,限制了对影响患者对瑞德西韦反应的潜在生物机制的深入探讨。此外,关于联合治疗的信息仅限于瑞德西韦治疗期间使用的药物,这可能无法全面反映更广泛的治疗背景或潜在的累积效应。再者,尽管在多变量逻辑回归分析中采用了系统的方法,包括单变量筛选和后向消除,但研究中未对多变量分析进行正式的多重比较校正,这可能增加了I型错误的风险,因此需要谨慎解释研究结果。最后,本研究未进行外部验证,所有分析仅基于内部数据集(交叉验证)进行,没有保留一部分数据或使用独立队列进行验证。这一局限性可能限制了预测模型的普遍适用性,未来研究应纳入外部数据集以验证模型在不同患者群体和临床环境中的表现。

### 研究的贡献与意义

尽管存在上述局限性,本研究的综合分析方法(结合传统统计方法、机器学习和贝叶斯分析)使得风险因素的稳健识别成为可能。此外,多中心和基于电子病历的设计提高了研究结果的普遍适用性,涵盖了来自三级转诊中心和二级社区医院的患者,反映了多样化的临床环境和广泛的疾病严重程度。所有患者均按照标准化的国家指南接受瑞德西韦治疗,确保了治疗的统一性。这些优势支持了研究结果的临床相关性和适用性。

总体而言,本研究不仅提供了关于新冠患者风险因素的新证据,还强调了机器学习和贝叶斯方法在临床决策中的潜在价值。通过整合多种分析方法,研究为个性化医疗和精准临床管理提供了新的思路,有助于提高对新冠患者的预测和干预能力。未来的研究应进一步探索房颤与新冠严重程度之间的潜在机制,并考虑外部验证以提高模型的普遍适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号