编辑推荐:
为解决急性胃肠道出血(GIB)患者高死亡率及传统风险评估工具不足的问题,匈牙利研究人员开展机器学习模型预测 GIB 患者住院死亡率的研究。结果显示新模型表现出色,能精准评估风险,推荐科研读者阅读以了解前沿成果。
在医学领域,急性胃肠道出血(GIB)一直是个让人头疼的问题。尽管在过去三十年里,急性胃肠道出血的流行病学和管理方式都有了变化,可它的死亡率依旧居高不下,在 2% - 20% 之间波动。就像在丹麦一个大型的上消化道出血(UGIB)队列研究中,12601 名患者里,血流动力学不稳定的患者死亡率高达 13%,而稳定的患者只有 3.8% 。法国的一项前瞻性 UGIB 队列研究也显示,住院患者死亡率是 16.8%,门诊患者则为 5.8% 。从全球范围来看,上消化道出血的病死率在 0.7% - 4.8%,下消化道出血(LGIB)在 0.5% - 8.0% 。
这么高的死亡率,让医生们十分揪心。大家都知道,如果能在急诊时就仔细评估患者风险,早早识别出高风险患者,或许就能降低死亡率。高死亡率风险的患者往往需要住进重症监护室(ICU),接受更多输血、液体复苏、使用血管活性药物,甚至更频繁地进行内镜干预 。
为了实现这个目标,很多风险评估工具应运而生,像格拉斯哥 - 布拉奇福德评分(GBS)、内镜检查前罗卡尔评分(pre - endoscopic Rockall score)、AIMS65 评分、PNED 评分、完整罗卡尔评分(full Rockall score)、T 评分、MAP (ASH) 评分等。其中 ABC 评分对预测上消化道和下消化道出血患者的死亡率都比较有效。但这些传统评分系统存在不少问题。GBS 在筛选低风险患者进行门诊管理时还算可靠,可预测死亡率、再出血和内镜治疗需求的准确性却不高。不同评分系统在不同年龄段患者中的表现也不一样,这就导致临床使用时争议不断。
在这样的背景下,人工智能技术的发展给医学研究带来了新希望。机器学习(ML)算法作为人工智能的一种,能根据训练数据集构建模型,还能随着经验积累提升性能。它在处理大量复杂、多样且不均衡的临床数据方面有着独特优势,被寄予厚望,有望成为预测个体化诊断和临床结果的有力工具。
于是,匈牙利的研究人员决心探索机器学习在急性胃肠道出血风险评估中的应用。他们的研究成果发表在《Scientific Reports》期刊上,论文题目是《Machine learning models for the prediction of in - hospital mortality in acute gastrointestinal bleeding patients》。这项研究得出了令人瞩目的结论:新开发的基于机器学习的模型在预测急性 GIB 患者住院死亡率方面表现出色,AUC 达到 0.84,而传统的 GBS 和内镜检查前罗卡尔评分表现较差。在这些模型中,CatBoost 模型的敏感性为 78%,特异性为 74%,在排除死亡风险和识别低死亡率风险患者方面更具优势。而且研究还发现,入院时的 C 反应蛋白(CRP)水平对住院死亡率有着意想不到的影响。这一研究成果意义重大,为临床医生评估急性胃肠道出血患者的风险提供了更精准、有效的新方法,有助于提高患者的生存率,降低医疗成本。
研究人员在开展这项研究时,用到了不少关键技术方法。首先,他们建立了统一的电子临床数据登记系统,收集了患者多方面的信息,包括基本特征、合并症、用药史、生命体征、实验室检查结果等。数据收集完成后,通过四步数据质量控制系统进行严格把控。接着,利用机器学习算法来构建风险评估模型,他们采用了 XGBoost 和 CatBoost 算法,这两种都是决策树模型,运用了极端梯度提升技术。在处理数据时,用独热编码将分类信息转化为数值变量,还通过迭代插补法处理缺失数据,利用合成少数过采样技术(SMOTE)解决数据不平衡问题。最后,运用 SHapley Additive exPlanations(SHAP)工具来解释模型中关键变量对死亡率风险评估的贡献 。
下面来详细看看研究结果。
- 队列基本特征:研究一共纳入了 1021 名患者,这些患者的年龄中位数是 70 岁(IQR:61 - 80),男性占比 60%。从出血源来看,527 名(52%)患者是非静脉曲张性上消化道出血,91 名(8.9%)是静脉曲张性出血,303 名(30%)是下消化道出血,23 名(2.3%)是小肠出血,还有 77 名(7.5%)出血源是医源性的。82% 的患者因 GIB 住院(门诊患者),18% 是住院期间发生 GIB(住院患者)。整个队列的住院死亡率是 11%(108 名患者)。通过对这些基本特征的分析,研究人员对研究对象有了初步的了解,为后续深入研究奠定了基础。
- 机器学习模型评估:研究人员对 XGboost 和 CatBoost 模型进行评估,结果令人眼前一亮。在内部验证集中,这两个模型识别死亡患者的 AUC 分别达到了 0.84(CI:0.76 - 0.90;0.77 - 0.90),而 GBS 和内镜检查前罗卡尔临床评分系统的表现就逊色不少,AUC 值分别只有 0.68(CI:0.62 - 0.74)和 0.62(CI:0.56 - 0.67),ABC 评分的 AUC 为 0.77(0.71 - 0.83) 。再对比模型的特异性、敏感性等指标,XGBoost 模型准确率为 0.88(CI:0.85 - 0.91),敏感性 0.25(CI:0.09 - 0.43);CatBoost 模型准确率 0.75(CI:0.69 - 0.80),敏感性 0.78(CI:0.57 - 0.95),特异性分别是 0.96(CI:0.92 - 0.98)和 0.74(CI:0.66 - 0.83)。这表明 XGBoost 模型特异性高但敏感性低,不太擅长识别高死亡风险患者;而 CatBoost 模型敏感性更好,能更好地识别低死亡风险患者。
- 上消化道出血患者亚组分析:研究人员还针对上消化道出血患者进行了亚组分析。结果显示,XGBoost 和 CatBoost 模型识别死亡患者的 AUC 分别为 0.79(CI:0.72 - 0.86;0.71 - 0.88),GBS 和内镜检查前罗卡尔临床评分系统的 AUC 值分别为 0.62(CI:0.56 - 0.70)和 0.61(CI:0.55 - 0.67),ABC 评分的 AUC 为 0.76(CI:0.70 - 0.83) 。XGBoost 模型敏感性为 0.27(CI:0.12 - 0.43),CatBoost 模型敏感性为 0.79(CI:0.58 - 0.99),特异性分别是 0.94(CI:0.89 - 0.98)和 0.63(CI:0.51 - 0.71)。这进一步验证了在不同出血源患者中,机器学习模型的优势依然明显。
- 机器学习预测模型解读:为了让大家更好地理解模型的风险评估机制,研究人员使用了 SHAP 方法。通过分析发现,XGBoost 模型中,影响预测的前七个重要因素是 CRP 水平、吸烟、肝脏疾病、最低收缩压、首次内镜检查为胃镜检查、首次内镜检查时的干预措施和既往 GIB 病史;CatBoost 模型中,最具影响力的因素是 CRP 水平、吸烟、黑便、最低收缩压、既往 GIB 病史、格拉斯哥昏迷评分(GCS)和血红蛋白水平 。高 CRP 水平、低血小板计数、低血红蛋白水平等会增加死亡率风险;而不吸烟、无肝脏疾病等则是保护因素。研究人员还通过三个不同病例进行了具体说明,让这种风险评估机制更加直观易懂。
综合研究结论和讨论部分,这项研究意义非凡。研究人员成功开发了两种基于机器学习的急性 GIB 死亡率风险评估工具,并与传统风险评估工具进行对比。结果显示,机器学习模型在预测住院死亡率方面表现优异,尤其是 CatBoost 模型,在敏感性和特异性之间达到了较好的平衡,能更有效地识别不同风险的患者。而且研究没有区分患者的出血源,开发的风险评估工具可普遍应用于各种类型的急性 GIB 患者,这大大拓展了模型的使用范围。此外,通过 SHAP 值,研究人员能直观展示和解释模型对个体患者的风险分层,让临床医生能快速理解影响患者预后的关键因素。不过,研究也存在一些局限性,比如缺乏外部验证,参与患者数量相对其他机器学习模型不算多,数据收集可能存在人为误差等。但这并不影响它为未来研究指明方向,后续可以进一步进行外部验证,评估模型在预测再出血或干预需求等其他临床结果方面的性能。总的来说,这项研究为急性胃肠道出血患者的风险评估带来了新的思路和方法,有望在未来的临床实践中发挥重要作用,拯救更多患者的生命。