慢性阻塞性肺疾病急性加重的风险评估:一种基于多算法的机器学习方法,用于实现精确的临床表型分析

《VIEW》:Transforming acute exacerbations of chronic obstructive pulmonary disease (AECOPD) risk assessment: A multi-algorithm machine learning approach for precise clinical phenotyping

【字体: 时间:2025年11月22日 来源:VIEW 8.5

编辑推荐:

  预测慢性阻塞性肺疾病急性加重的机器学习模型构建及验证,整合Cox回归与随机森林算法,通过多维度临床和生化指标(包括年龄、凝血指标、炎症标志物等)实现高精度风险评分预测,并开发临床决策支持工具。

  慢性阻塞性肺疾病(COPD)是一种全球范围内普遍存在的慢性呼吸道炎症性疾病,其高发病率和高死亡率对公共卫生系统构成重大挑战。COPD急性加重(AECOPD)是该疾病最常见的临床并发症之一,患者每年可能经历0.5至3.5次急性加重事件。这些加重事件不仅显著降低患者的生活质量,还可能引发急性呼吸衰竭,需要紧急干预或住院治疗。因此,准确预测AECOPD的发生,并对高风险患者进行早期干预,是优化COPD管理策略和降低疾病相关死亡率的关键研究方向。

AECOPD的病理生理过程涉及多种复杂的临床和生化因素,其发病机制仍处于持续探索之中。已有研究表明,系统性炎症反应、氧化应激、免疫失衡、心肺功能下降等因素协同作用,影响COPD患者的疾病进展和预后。在AECOPD患者中,炎症反应显著增强,研究发现诸如C反应蛋白和白细胞介素-6(IL-6)等炎症因子水平明显升高,表明系统性炎症状态可能在疾病加重中发挥关键作用。此外,氧合功能障碍是评估AECOPD严重程度的重要指标,动脉血气分析可以准确反映患者的呼吸功能参数,其中动脉血氧分压下降、二氧化碳分压升高以及酸碱平衡紊乱均与AECOPD的进展密切相关。然而,当前关于AECOPD患者预后的研究大多局限于单一生物标志物或个体临床指标的分析,缺乏对多维因素的综合整合,这在一定程度上阻碍了对疾病进展机制的深入理解,进而影响了临床决策的精准性。因此,采用多变量综合分析方法,系统整合AECOPD患者的临床和生化特征,为精准预后评估和个体化治疗策略的开发提供了新的研究范式。

随着人工智能技术的迅速发展,机器学习(ML)在医疗领域的应用日益广泛。ML是一种依赖大数据分析的智能算法,能够自动提取数据特征、识别潜在的复杂关系,并实现精准预测。近年来,ML在AECOPD预测方面的应用潜力逐渐显现。例如,有研究应用支持向量机预测AECOPD患者的住院风险,结果表明该ML模型的预测性能显著优于传统统计模型。然而,现有的研究多集中于AECOPD的某些方面,忽视了更为临床重要的COPD加重预测核心问题。此外,大多数研究仅采用单一ML模型,而研究指出,整合多个ML模型可以显著提高预测结果的准确性。因此,构建基于多种ML方法的综合策略,以建立有效的AECOPD预测模型,成为当前研究的迫切需求。

尽管当前关于AECOPD患者预后的ML研究仍处于初级阶段,大多数研究受限于单一模型和样本量不足,未能充分利用多变量联合分析的优势。因此,本研究整合了AECOPD患者的生化指标和临床数据,构建了多个ML预测模型,旨在提升AECOPD的精准预后评估能力,并系统探讨关键生物标志物在疾病进展中的潜在机制作用。本研究不仅为临床医生提供了更精确的个体化风险评估工具,还为优化AECOPD的临床管理策略提供了支持,从而最终提高患者的生活质量和临床结局。

本研究的数据来源于珠江医院2007年至2024年期间确诊COPD患者的临床资料,总计28,952条记录。纳入标准遵循2024年全球慢性阻塞性肺疾病倡议(GOLD)指南,具体包括:(1)使用支气管扩张剂后的第1秒用力呼气容积(FEV1)与用力肺活量(FVC)比值小于0.7;(2)定期随访以确保可靠的诊断状态。排除标准包括:(1)缺少肺功能记录;(2)随访数据不完整;(3)临床数据严重缺失。最终,878名COPD患者被纳入分析。所有AECOPD的诊断均经两位至三位资深呼吸科医生确认。本研究已通过珠江医院伦理委员会批准(批准号:2024-KY-182-01),由于研究具有回顾性特征,因此无需获取知情同意。我们从符合纳入标准的COPD患者中收集了三类变量:人口学和临床特征(如年龄和性别,共6项变量)、生化指标(如绝对淋巴细胞计数[ALC]和凝血酶原时间[PT],共76项变量)以及肺功能参数(共11项变量)。对于缺失数据的处理,我们采用了两种策略:缺失率超过20%的变量被排除在最终数据集之外;而缺失率低于20%的变量则通过随机森林回归法进行填补。AECOPD被定义为COPD患者出现呼吸困难和/或咳嗽及痰液增多的急性事件,症状恶化发生在14天内,可能伴随呼吸急促和/或心动过速。这些加重事件主要由呼吸道感染、空气污染引发的局部或全身炎症反应增强或其他损害气道的因素引起。

为了筛选适合纳入模型的变量,我们首先进行了单变量Cox回归分析,保留了显著相关的变量(p < .05),同时排除了那些危险比(HRs)在0.95至1.05之间的变量。在人口学和基础临床特征方面,考虑到这些数据易于获取、相对完整且数量有限,我们将其全部纳入分析。在肺功能指标方面,参考权威指南和临床认可标准,我们纳入了具有显著预测价值的变量。最终,模型中包含了14项变量,包括:(1)生化指标(5项):ALC、嗜碱性粒细胞百分比(Basophil%)、嗜碱性粒细胞(Basophil)、纤维蛋白原(FIB)和PT;(2)人口学和基础临床特征(6项):性别、吸烟状态、吸烟年数(Pack_Year)、身高、体重和年龄;(3)肺功能指标(3项):实际测量的FEV1(FEV1_Real)、预测的FEV1(FEV1_Pre)以及预测FEV1的百分比(FEV1%_Pre)。

随后,我们基于纳入模型的变量,计算了所有候选模型的C-index,并通过热图进行可视化比较。候选模型库包含91种ML算法,所有模型均经过系统评估和筛选。根据C-index的评估结果,我们选择了表现最佳的StepCox前向选择与随机生存森林(RSF)结合的模型,作为本研究的AECOPD-RS模型。Cox回归模型采用了前向选择方法进行变量筛选,该方法首先包括所有候选变量,然后根据Akaike信息准则保留对模型有显著贡献的变量,最终确定最优变量组合。在StepCox模型筛选过程中,由于性别变量的统计学意义不显著(p > .05),因此被排除,仅保留了13项变量用于构建RSF模型。通过上述方法构建的AECOPD预测模型(AECOPD风险评分模型[AECOPD-RS])被确认为预测AECOPD发生最佳的ML模型,并用于进一步分析。完成模型构建后,我们计算了所有患者的个体化风险评分,并以中位数风险评分(总体:100.00;训练集:106.87;测试集:101.21)作为阈值,将患者分为高风险和低风险组。这一方法在预后研究中广泛应用,确保了组别分层的稳健性和临床可解释性。

为了进一步评估AECOPD-RS模型的性能,我们系统比较了其与三项已发表的AECOPD预测模型(Jo et al., Yin et al., Pantazopoulos et al.)在不同时间点(1、3、5年)的AUC表现,并通过1000次Bootstrap随机抽样绘制了时间依赖性C-index比较曲线。结果显示,AECOPD-RS模型在不同时间点的AUC值分别为0.957、0.951和0.960,训练集和测试集的AUC值分别为0.951、0.950和0.965,以及0.864、0.865和0.855。这些结果表明,AECOPD-RS模型在预测能力上表现出色,且具有良好的临床适用性。

此外,我们还进行了子群分析,以评估AECOPD-RS模型在不同临床特征下的预测性能。子群分析根据关键临床特征(如年龄分层、性别和GOLD分期)对患者进行分类,并系统评估了AECOPD-RS模型在各子群中的预测效果。差异比较采用Kruskal-Wallis检验,而多组之间的成对比较则采用Mann-Whitney U检验。所有p值均采用Benjamini-Hochberg方法进行多重比较调整,以控制假发现率。

考虑到AECOPD具有明显的季节性和年际波动性,我们还进行了专门的季节性和时间序列分析。完整的分析流程和参数化过程详见支持信息。我们发现,AECOPD的标准化发病率在冬季达到峰值,而在夏季降至最低,呈现出冬季高发、夏季低发的模式。泊松回归进一步确认了冬季与其他季节相比,AECOPD的发病率比(IRR)显著升高(p < .01)。在子群分析中,两性均表现出冬季较高的风险(图S1B、C和S2A),其中在GOLD I期和IV期的患者中,这一效应尤为显著(图S1D-G和S2C)。年轻患者在春季更容易发生AECOPD(图S1H、I和S2B)。各季度的病例数相似,未发现明显失衡(图S1J)。在后续的季节分层评估中,AECOPD-RS模型在所有四个季节均表现出优异的区分能力(图S3)。月度和年度趋势分析显示,1月份的发病率最高(图S4A),而自2020年以来,整体发病率呈下降趋势(图S4B)。

为了全面评估AECOPD-RS模型与其他预测模型的优劣,我们生成了时间依赖性AUC分析图(图5G)。同时,我们还生成了比较不同时间点(1、3、5年)的AUC值的柱状图,结果显示:AECOPD-RS模型的AUC值分别为0.957、0.951和0.960,而Yong、Yin和Loannis模型的AUC值分别为0.757、0.744和0.812;第三年分别为0.951、0.717、0.766和0.753;第五年分别为0.960、0.758、0.681和0.776。此外,我们构建了趋势图,展示了各模型C-index随时间的变化(图5H)。结果显示,我们构建的AECOPD-RS模型在所有时间点的C-index均显著高于其他模型,最高达到0.902,表明其在预测性能方面具有显著优势。

基于RSF模型的VIMP和SHAP值的比较分析显示,两种方法识别出的前四项关键变量高度一致(表S2),这表明模型的区分能力具有鲁棒性。我们基于这些发现构建了一个用于个体化AECOPD风险预测的列线图,并开发了一个在线临床预测工具。该列线图在不同时间点(1、3、5年)的时变ROC分析中显示了优异的区分能力,AUC值分别为0.902、0.883和0.910(图6A、B)。在线工具采用R Shiny框架构建,前端具备交互式用户界面,后端则实现了复杂的算法,使得临床医生能够根据个体患者的特征(如FIB、年龄、吸烟状态和PT等)进行动态风险预测和干预建议,从而为临床决策提供实时支持。

总体而言,本研究构建的AECOPD预测模型整合了患者的流行病学特征、肺部临床指标和生化参数,实现了对AECOPD发生风险的多维评估,具有重要的临床应用价值。与现有AECOPD预测模型相比,我们的模型展现出显著优势:首先,我们采用了先进的算法优化特征组合,使得预测性能更加准确和稳定,显著优于传统的单维度或特征有限的模型。这种设计使得我们的模型能够更全面和精确地评估AECOPD风险,为临床决策提供坚实支持。其次,由于纳入的COPD患者覆盖了较长的时间跨度,其发作时间分布较为均匀,使得AECOPD-RS模型在中长期风险预测中表现出良好的性能,具有较高的稳定性和适用性。第三,该模型具有广泛的适用性,其对患者特征的依赖性较低,基于常见的临床特征(如身高、体重、年龄等),使得其能够适应不同类型的患者风险评估需求。此外,子群分析结果表明,AECOPD-RS模型在所有子群中均表现出良好的性能。这种设计的灵活性使得模型适用于多种临床场景和不同类型的医疗机构,进一步增强了其实施价值和实际应用潜力。

尽管本研究在构建多个ML模型用于COPD急性加重预测方面取得了良好的成果,但也存在一些局限性。首先,本研究是一项单中心回顾性研究,样本量相对有限,这可能影响模型的普遍适用性和在不同临床环境中的适应性。其次,由于AECOPD是一种复杂的多因素疾病,本研究构建的预测模型尚未纳入与环境相关的因素,如空气污染和气象变化。这些关键变量的缺失可能限制了模型的全面性和普遍适用性,因此在解释结果时需要谨慎。已有研究表明,细颗粒物(PM2.5)和二氧化氮(NO2)等环境污染物对AECOPD的发生具有显著的触发作用。此外,本研究未纳入影像学特征,如小气道重塑、肺气肿分布和高分辨率CT反映的气道壁厚度等。已有研究指出,影像学参数在揭示COPD的表型异质性和预测急性加重风险方面发挥着重要作用。未来研究计划开展多中心前瞻性队列研究,将空气质量监测数据和气象参数整合,并结合影像组学方法与深度学习模型,整合临床、生化和影像的多模态特征,以进一步提升预测模型的性能和临床可解释性。尽管存在上述局限,本研究通过整合多种ML算法,为AECOPD风险预测提供了有价值的视角,特别是为COPD患者早期识别和精准预警提供了可行的技术途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号