编辑推荐:
为预测膀胱癌患者尿流改道术(urostomy)后 90 天内尿路感染(UTIs)风险,研究人员构建机器学习模型,SVM 模型表现最佳。
在泌尿系统的众多疾病中,膀胱癌是极为常见的恶性肿瘤,严重威胁着全球人类的健康。根据 GLOBOCAN 2022 报告,膀胱癌在全球癌症诊断中排名第九,新发病例达 613,791 例,占所有癌症诊断的 3.1%。在中国,膀胱癌的发病率在 45 岁后显著上升,在所有恶性肿瘤中位居第 13 位。而且,膀胱癌多发生于老年人,男性的发病率高于女性,其发病与年龄、吸烟、基因突变、工业化学物质暴露和慢性炎症等因素密切相关。
对于高风险或复发性非肌层浸润性膀胱癌(NMIBC)和肌层浸润性膀胱癌(MIBC),根治性膀胱切除术联合盆腔淋巴结清扫和尿流改道是重要的治疗手段。然而,尿流改道手术虽能改善患者预后和生活质量,但却带来了诸多问题。像回肠膀胱术(IC)和皮肤输尿管造口术(CU)等常见的尿流改道方式,会改变尿路的正常解剖结构,消除自然的抗反流机制,使得患者容易发生上行性细菌感染。并且,与原位新膀胱术(ON)相比,IC 和 CU 需要长期放置支架,这不仅会促进支架表面生物膜的形成,阻碍抗生素的渗透,还会逃避宿主的免疫系统,导致持续的导管相关尿路感染,甚至引发抗生素耐药性。据研究表明,术后 90 天内尿路感染的发生率可高达 39%。尿路感染带来的后果十分严重,会延长患者的住院时间,增加医疗费用,还会导致计划外的再次入院。因此,早期识别和评估尿流改道术后尿路感染的风险,对于优化治疗策略、减少并发症的发生、改善患者的预后至关重要。
在这样的背景下,山西医科大学第一医院的研究人员开展了一项极具意义的研究。他们旨在设计并验证一种机器学习模型,来预测膀胱癌患者尿流改道术后 90 天内发生尿路感染的概率。该研究成果发表在《Scientific Reports》上。
研究人员为开展此项研究,采用了多种关键技术方法。首先,他们收集了山西医科大学第一医院 2018 年 5 月至 2024 年 5 月期间 317 例接受尿流改道术患者的临床和随访信息作为样本队列。接着,通过全面的文献回顾和专家咨询,确定了 34 个潜在的风险因素作为预测变量。然后,利用最小绝对收缩和选择算子(LASSO)回归技术进行特征选择,筛选出重要的变量。之后,运用逻辑回归(Logistic Regression)、K 近邻算法(K-Nearest Neighbors)、LightGBM、随机森林(Random Forest)、XGBoost、支持向量机(SVM)和多层感知器(Multi-Layer Perceptron)这 7 种机器学习算法构建模型。在模型构建过程中,采用分层随机抽样策略划分训练集和测试集,并利用 'recipe' 包进行数据预处理。最后,通过五折交叉验证和网格搜索对模型超参数进行微调,使用多种评估指标对模型性能进行评估,还运用 SHapley Additive exPlanations(SHAP)和 Local Interpretable Model-agnostic Explanations(LIME)算法对模型进行解释。
研究结果如下:
- 人口统计学特征:研究共纳入 317 例患者,其中 70 例发生尿路感染,发生率为 22.08%。训练集和测试集在年龄、性别等多个基线特征上无显著差异。
- 特征选择:相关性分析发现年龄和年龄调整的 Charlson 合并症指数(aCCI)存在强相关性,但考虑到其对研究的重要性仍予以保留。LASSO 回归确定了 8 个重要变量,包括 BMI、住院时间(LOS)、aCCI、中性粒细胞与淋巴细胞比值(NLR)、控制营养状态(CONUT)评分、术后肌酐(Postop CRE)、糖尿病和尿流改道类型(TUD)。
- 模型性能:在训练集和测试集中,不同模型的表现各有优劣。综合多种评估指标,SVM 模型在测试集中表现最佳,其受试者工作特征曲线下面积(AUC)为 0.835,准确率为 0.825,精确率为 0.583,召回率为 0.778,F1 评分 0.667。
- 特征重要性:通过 SHAP 和 LIME 算法分析,糖尿病、Postop CRE 和 NLR 是影响尿路感染风险的前三大重要因素。糖尿病会损害免疫功能,促进病原体生长;Postop CRE 作为肾功能障碍的标志物,会阻碍病原体清除;NLR 升高反映炎症反应过度,削弱机体抗感染能力。
在研究结论和讨论部分,研究人员训练并验证的 SVM 模型能准确预测尿流改道术后 90 天内尿路感染的风险。模型确定的关键预测因素为临床提供了重要参考。例如,糖尿病患者术后尿路感染风险高,需要严格监测血糖和有效管理糖尿病;aCCI 评分高的患者常伴有多种合并症,需要综合护理和密切监测感染情况;BMI 高的患者,医护人员应关注体重管理、代谢控制和感染监测;对于采用 CU 的患者,要考虑其感染风险高的特点,加强感染控制措施;术后肌酐升高、NLR 升高和 CONUT 评分高的患者,也都需要密切关注和管理。此外,研究中运用的 SHAP 和 LIME 技术提高了模型的可解释性,有助于临床决策。整体而言,基于该模型开发的在线计算器为临床医生评估尿路感染风险和制定个性化预防策略提供了快速、可靠的工具,对减少感染发生率、改善临床实践具有重要意义。但该研究也存在局限性,如单中心回顾性研究、样本量有限等。后续研究人员计划开展多中心、大样本的前瞻性研究,并探索数据平衡技术,以进一步提高研究结果的可靠性和模型的预测准确性。