机器学习算法在创伤性脊髓损伤后一年再住院预测中的前沿应用与关键发现

【字体: 时间:2025年02月16日 来源:Spinal Cord 2.1

编辑推荐:

  为解决创伤性脊髓损伤(TSCI)患者再住院预测及住院时长评估问题,美国阿拉巴马大学伯明翰分校研究人员开展相关研究,发现 RF 和 Adaboost 模型可预测再住院和延长住院情况。该研究对临床决策意义重大,值得科研人员一读。

  
美国阿拉巴马大学伯明翰分校(University of Alabama at Birmingham)的 Salma Aly 等人在《Spinal Cord》期刊上发表了题为 “Utilization of machine learning algorithm in the prediction of rehospitalization during one-year post traumatic spinal cord injury” 的论文。这篇论文在创伤性脊髓损伤(Traumatic Spinal Cord Injury,TSCI)研究领域意义重大,为该疾病后续的治疗和管理提供了全新的思路和方法。

研究背景


创伤性脊髓损伤在美国是一个严峻的健康问题。据美国国家脊髓损伤统计中心(National Spinal Cord Injury Statistical Center,NSCISC)数据,每年约有 17,900 例新发病例。虽然相较于其他慢性病,TSCI 并不常见,但其带来的后果却不容小觑,给患者及其家庭,还有整个健康和社会系统都造成了沉重负担。

患者在接受初始康复治疗后,非计划性再住院是一个突出问题。受伤后第一年,再住院率在 36% - 45% 之间,且平均再住院时长为 23 天。常见的再住院原因包括尿路感染(Urinary Tract Infection,UTI)、呼吸道感染、压疮(Pressure Injury,PI)和消化问题等,而这些大多是可以预防的。先前研究发现,种族 / 民族、损伤严重程度、教育程度、就业情况、收入和年龄等因素都与再住院相关 。另外,基于人群的研究表明,前一年住院情况、慢性健康状况、活动能力和生活质量指标等也具有预测价值。

再住院不仅频繁发生,还带来了巨大的经济负担。受伤后前 5 年,人均总费用平均为 214,716 美元,标准差为 338,837 美元(调整为 2019 年美元价值) 。其中,受伤后第一年费用为 65,759 美元,随后四年人均每年费用在 19,952 - 23,106 美元之间。颈椎损伤、美国脊髓损伤协会损伤量表(American Spinal Injury Association Impairment Scale,AISA)A 和 B 级、伴随损伤以及住院并发症的患者,经济负担增加最为显著。

鉴于再住院的高发生率和高昂成本,开发精准的预测模型来识别高风险个体,并提供有针对性的干预措施至关重要。此外,了解影响再住院期间住院时间延长(Length of Stay,LOS)的因素,对于合理分配医疗资源和管理患者也非常关键。在这样的背景下,机器学习(Machine Learning,ML)技术因其能够有效捕捉潜在预测因素与观察结果之间复杂的非线性关系,在预测模型开发中得到广泛应用。已有研究利用 ML 技术预测危重症患者在重症监护病房的住院时长和 TSCI 患者的预后情况,但本研究采用了独特的分析方法,更聚焦于初始康复护理期间获得的数据以及受伤后第一年的情况,且样本量更大、数据更新,有助于推动对再住院动态的理解。

研究方法


  • 数据来源与参与者:研究数据来自美国国家脊髓损伤模型系统数据库(National Spinal Cord Injury Model Systems Database,NSCID)。该数据库自 1975 年建立以来,收集了 31 个联邦资助的脊髓损伤模型系统中心的数据,涵盖了患者的人口统计学信息、损伤和医疗特征,以及初始康复期和受伤后 1 年、5 年及之后每 5 年的功能独立性数据 。本研究纳入了 2011 年至 2020 年期间在 NSCID 登记的患者,根据受伤后第一年是否有再住院事件,将数据分为再住院组和非再住院组;为了确定住院时间延长的预测因素,再住院组又根据第一年所有再住院事件的总住院时长,进一步分为住院时间延长组(总住院时长大于或等于第 75 百分位数)和非住院时间延长组。
  • 研究设计与变量:研究变量包括患者初始康复护理期间的社会人口学特征(如年龄、性别、种族 / 民族、婚姻状况、教育程度、就业情况、家庭收入、保险类型和居住地点)、病史(糖尿病、高血压、关节炎、高血脂、抑郁、焦虑症和饮酒情况)、体重指数(Body Mass Index,BMI)、受伤到入院的天数、创伤病因、相关损伤、椎体损伤、脊柱手术、机械通气使用情况、膀胱管理方法,以及通过功能独立性测量(Functional Independence Measure,FIM)评估的功能状态 。此外,还收集了出院后 7 天内的神经学数据,包括运动和感觉评分、损伤水平和美国脊髓损伤协会(American Spinal Injury Association,ASIA)损伤分级(AIS)。在受伤一周年时,收集再住院事件(是否再住院、再住院次数和天数)和再住院原因(UTI、PI 等)的信息。
  • 统计分析:所有分析均使用 R 软件进行。分类变量的描述性统计以频率和百分比表示,连续变量以均值和标准差(SD)报告 。使用 Shapiro-Wilk 检验评估年龄分布的正态性,连续变量的组间比较采用 Mann-Whitney U 检验,分类变量则根据情况选择卡方检验或蒙特卡罗方法。所有检验均为双侧检验,显著性水平设定为 0.05。
  • 数据预处理:为避免多重共线性对预测结果的影响,研究人员通过创建变量间的相关矩阵进行检查,对于相关系数大于或等于 0.5 的变量,剔除其中一个 。例如,损伤水平(颈椎、胸椎、腰椎、骶椎)与残疾严重程度(四肢瘫、截瘫或正常),以及 AIS 与 ASIA 运动和感觉总分之间存在高度相关性,因此剔除了残疾严重程度和 AIS 变量。对于连续变量的缺失数据,采用 K 近邻插补技术进行处理;分类变量的缺失值则先使用频率类别(众数)插补技术,然后进行独热编码 。为避免模型评估指标出现偏差,总住院时长数据未进行插补。针对训练数据集中再住院组与非再住院组、住院时间延长组与非住院时间延长组样本量不均衡的问题,分别尝试了多种方法,最终确定再住院模型使用合成少数过采样技术(Synthetic Minority Oversampling Technique,SMOTE)效果最佳,而住院时间延长模型则采用随机过采样技术。数据被分为 80% 用于训练模型,20% 用于测试。
  • 分类模型:数据预处理后,研究人员在数据集上应用了七种常用的机器学习分类算法,包括决策树(Decision Tree,DT)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Na?ve Bayes,NB)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)、自适应提升(Adaptive Boosting,Adaboost)和极端梯度提升(Extreme Gradient Boosting,XGBoost) 。通过网格搜索技术对每个模型的超参数进行优化。数据预处理和后续分析均使用 Python 3.10.5 完成。
  • 特征选择和降维:根据模型的准确率和曲线下面积(Area Under the Curve,AUC)选择性能最佳的模型,然后使用递归特征消除(Recursive Feature Elimination,RFE)和三种正则化技术(最小绝对收缩和选择算子回归、岭回归和弹性网络回归技术)进行降维 。结果发现,对于再住院模型和住院时间延长模型,RFE 方法得到的 AUC 最高。这种反向选择方法从所有预测变量开始,迭代删除最不重要的变量,并重新计算重要性得分,最终根据优化性能标准和重要性排名选择变量子集来训练最终模型。
  • 评估标准:每个模型的评估指标是将训练好的模型应用于测试数据集后得到的结果 。主要通过 5 折交叉验证得到的准确率来评估模型,以减轻过拟合问题。随后计算五次准确率得分、AUC、F1 分数、灵敏度和特异性的均值和标准差。这些指标的计算公式如下:
    总体准确率 = (真正例数 + 真负例数) / (真正例数 + 假正例数 + 真负例数 + 假负例数)
    灵敏度 = 真正例数 / (真正例数 + 假负例数)
    特异性 = 真负例数 / (真负例数 + 假正例数)
    F1 分数 = 真正例数 / (真正例数 + 0.5×(假正例数 + 假负例数))
  • 模型解释:采用 Shapley 加性解释(SHapley Additive explanations,SHAP)方法,计算变量的平均边际贡献,以确定再住院的最重要预测因素及其对模型结果的影响。

研究结果


  • 患者基本情况:研究共纳入 4961 名参与者,其中 1704 名(34.3%)在受伤后第一年经历了一次或多次再住院事件 。在这 1704 名再住院患者中,421 名(24.7%)住院时间延长(≥17 天),1254 名(73.6%)住院时间未延长,另外 29 名(1.7%)因住院时长信息未知被排除在分析之外。参与者的基线特征显示,平均年龄约 42 岁,79% 为男性,约 30% 为少数族裔,大多数患者出院后居住在私人住所,两组中约三分之二的人有工作且学历为高中或以下。再住院患者中,三分之一在受伤后第一年至少有一次因 UTI 再住院(36.9%),其次是因 PI 再住院(11.3%)。
  • 再住院预测模型性能:七种机器学习分类模型在预测再住院方面的表现各异(表 2) 。SVM、DT 和 NB 的准确率最低,LR 次之。集成模型 RF、Adaboost 和 XGBoost 在准确率方面表现更好。在灵敏度方面,SVM 正确预测再住院患者的能力最低(61.4%),NB 最高(79.9%)。所有模型的特异性均超过灵敏度,其中 SVM 的特异性最低,RF 最高。RF 模型的大多数评估指标最佳,经过 RFE 降维后,其准确率和灵敏度有所提高,其他评估指标基本保持不变或略有下降。
  • 住院时间延长预测模型性能:在住院时间延长模型中(表 3),DT 和 NB 的 AUC 最低,其次是 SVM、LR 和 XGBoost,Adaboost 的 AUC 最高 。对 Adaboost 模型应用 RFE 后,所有评估指标均有所改善。
  • 重要预测因素:基于 RFE 降维后,构建再住院 RF 模型和住院时间延长 Adaboost 模型所选择的变量总结在表 4 中 。通过 SHAP 值分析发现(图 2),在再住院预测中,社会人口学特征方面,家庭收入越高、受伤时年龄越大、有工作、拥有学士学位、有私人保险以及单身的患者,再住院风险较低;临床和神经学评估方面,FIM 总运动评分、ASIA 运动和感觉评分越高,以及存在深肛门压力的患者,再住院风险也较低。在住院时间延长模型中(图 3),PI 作为再住院原因是最重要的预测因素。与再住院预测因素类似,FIM 和 ASIA 评分、受伤时年龄、BMI、受伤前一年饮酒率以及受伤到初始康复入院的时间间隔也是重要的预测因素。

研究结论与讨论


本研究旨在利用机器学习技术,基于患者受伤时的社会人口学和健康数据以及初始出院时的临床特征,预测 TSCI 后第一年的再住院情况。研究尝试了七种常用的 ML 分类模型,结果显示 RF 模型表现最佳 。该模型基于 26 个非侵入性且在患者首次住院时常规收集的变量进行训练和验证,预测准确率可达 75.5 ± 1.1%,能够有效识别 73.4% 可能再住院的患者(灵敏度),AUC 为 76.2%,具有中等至较强的区分再住院和非再住院患者的能力,有助于临床医生制定个性化的随访策略。

RF 模型的 SHAP 结果表明,出院时较高的 FIM 运动评分与较低的再住院预测风险相关,这与先前多项研究结果一致 。同时,研究还发现受伤时年龄较大会增加再住院预测的 SHAP 值,这可能与年龄增长伴随的合并症增多、恢复速度减慢以及 SCI 后更容易出现并发症有关。虽然有研究未发现不同年龄组再住院率存在显著差异,但可能是由于该比较研究中年轻年龄组样本量较小导致的。

对于住院时间延长的预测,Adaboost 模型表现中等,准确率为 66.9%,灵敏度为 59.2%,特异性为 70.3%,AUC 为 64.7% 。虽然该模型存在一定局限性,如可能会遗漏一些住院时间可能延长的患者,但仍具有一定的临床价值,其特异性表明它能够合理避免高估住院时间延长的需求,AUC 也显示出一定的区分能力。研究发现 PI 是住院时间延长的首要预测因素,这与先前研究中发现的年龄、创伤病因、ASIA 损伤分级、相关损伤和脊柱手术等因素与住院时间延长相关的结果相符,但目前的评估指标在预测性能上仍有待提高,NSCISC 可能需要探索更多评估指标来提升对住院时间延长风险的预测能力。

本研究也存在一些局限性。NSCID 数据库存在一定局限性,基于医院的样本、选择性的纳入标准、脊髓损伤模型系统中心名称随时间的变化,以及排除非创伤性 SCI 患者和受伤后未接受住院治疗的患者等因素,限制了研究结果的普遍性 。在住院时间延长模型中,两组参与者数量差异较大,影响了模型评估指标;用于预测住院时间延长的出院时收集的变量,其预测性能不如预测再住院时的表现,且计算得到的最高 AUC 仅为 64.7%,相对较低,需要测试更多变量以用于临床。在再住院模型方面,虽然评估指标表现较好,但预测过程中使用 26 个变量,从临床应用角度来看可能会增加复杂性。

尽管存在这些局限性,本研究仍具有重要的临床意义。再住院模型在患者出院时能为临床医生提供有价值的信息,帮助识别高风险患者,及时实施个性化干预措施,预防不必要的再住院,改善患者预后,提高医疗服务效率 。住院时间延长模型虽有不足,但也能为护理计划制定和资源分配提供参考,有助于更全面地管理 TSCI 患者。这篇论文为创伤性脊髓损伤患者的管理和治疗开辟了新方向,为后续研究和临床实践提供了重要参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号