
-
生物通官微
陪你抓住生命科技
跳动的脉搏
UPK3A蛋白联合血清炎症标志物及人口统计学特征构建膀胱尿路上皮癌多模态预后预测模型:基于机器学习算法的创新研究
【字体: 大 中 小 】 时间:2025年09月20日 来源:Frontiers in Oncology 3.3
编辑推荐:
本研究通过整合Uroplakin III(UPK3A)蛋白表达、系统性炎症标志物及人口统计学数据,利用机器学习(ML)算法构建了膀胱尿路上皮癌(BUC)术后预后预测模型。研究采用LASSO回归(λ=0.009)进行特征筛选,LightGBM、随机森林(RF)和XGBoost模型表现优异(AUC: 0.894/0.754)。SHAP分析揭示血管侵犯、肿瘤坏死和UPK3A为关键预测因子。该多模态模型显著优于传统方法,为BUC术后风险分层和个体化管理提供了可靠工具。
背景
膀胱尿路上皮癌(Bladder Urothelial Carcinoma, BUC)是一种具有高度复发性和异质性的恶性肿瘤。准确的术后风险分层对于指导辅助治疗决策至关重要。近年来,整合分子标志物、系统性炎症指标和人口统计学因素的多模态预测模型成为研究热点。Uroplakin III(UPK3A)作为尿路上皮特异性结构蛋白,其在膀胱癌诊断和预后评估中的价值日益受到关注。本研究假设将UPK3A蛋白表达与系统性炎症标志物及人口统计学因素相结合,可通过先进的机器学习(Machine Learning, ML)模型提升BUC的预后预测能力。
材料与方法
本研究回顾性分析了昆明医科大学两家附属医院2014年至2024年间接受根治性膀胱切除术的1,032例BUC患者。收集的数据包括临床病理学特征、血清学指标和免疫组化检测的UPK3A蛋白表达。采用K近邻(K-Nearest Neighbors, KNN)插补法处理缺失值(缺失率<20%),并对连续变量进行z-score标准化,分类变量进行独热编码。通过最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)回归(λ=0.009,经10折交叉验证确定)进行特征选择。最终筛选出的特征包括年龄、吸烟史、尿细菌培养阳性、神经周围侵犯、血管侵犯、肌层浸润(M分期)、UPK3A表达、肿瘤数目、肿瘤边界特征和坏死。研究构建了九种ML模型[K近邻(KNN)、随机森林(Random Forest, RF)、XGBoost(XGB)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression, LR)、多层感知机(Multilayer Perceptron, MLP)、LightGBM、LASSO和决策树(Decision Tree, DT)],并通过五折交叉验证进行训练和内部验证。模型性能通过受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC-ROC)、校准曲线、决策曲线分析(Decision Curve Analysis, DCA)和临床影响曲线(Clinical Impact Curve, CIC)进行评估。使用SHapley Additive exPlanations(SHAP)分析增强模型可解释性。所有计算均使用Python 3.8和scikit-learn(v0.24.2)、xgboost(v1.5.0)、lightgbm(v3.3.1)等包完成。
结果
LASSO回归关键变量筛选与BUC预后预测模型优化
基于1,032例合格病例的数据(训练集412例,验证集620例),单因素分析识别出与患者结局相关的临床特征,包括年龄、尿急、排尿困难、肿瘤坏死、神经周围侵犯、血管侵犯、肿瘤直径、肿瘤位置、组织纹理以及多项血液和尿液标志物(如肌酐、中性粒细胞计数和白细胞酯酶)。LASSO回归进一步筛选出10个关键特征,构建了预后预测的基础框架。
基于机器学习的BUC预后预测模型构建与性能评估
在训练集和验证集中,LightGBM、RF和XGBoost模型表现出优异的预测性能。训练集AUC分别为0.894、0.894和0.872,验证集AUC分别为0.741、0.754和0.751。LightGBM和RF在准确率(Accuracy)、召回率(Recall)和F1分数(F1-Score)上也优于其他模型。校准曲线显示,大多数模型(尤其是LightGBM和RF)在预测概率与实际观察之间具有良好的一致性。DCA进一步证实,LightGBM、RF和XGBoost模型在各种概率阈值下均能提供较高的净临床收益,表明这些模型具有显著的临床应用潜力。
基于CIC的BUC预后模型临床应用评价
CIC分析显示,LightGBM、RF和XGBoost模型能够在不同风险阈值下准确识别更多高危患者,且预测高危患者中实际事件(如疾病复发或进展)的发生比例较高,其曲线趋势与实际事件发生曲线高度吻合。相比之下,KNN和DT模型在中低风险阈值下与实际情况偏差较大。总体而言,RF和LightGBM模型在所有风险阈值下均保持了灵敏度与特异度的良好平衡,展现出最佳的临床净收益。
基于SHAP值的BUC预后模型特征贡献评估
SHAP分析增强了模型的可解释性。在RF模型中,血管侵犯、神经周围侵犯、肌层浸润(M分期)、肿瘤坏死、肿瘤边界清晰度、尿白细胞酯酶阳性和白细胞计数对预测影响最大。正SHAP值表示该变量增加预测高危结局的概率,负值则降低该概率。这一分析不仅提升了模型的生物学可解释性,还为膀胱癌患者的术后管理提供了理论依据。
讨论
本研究开发并验证了一个可解释的基于ML的BUC预后模型,整合了UPK3A蛋白表达、系统性炎症标志物和人口统计学数据。UPK3A是一种跨膜糖蛋白,在维持尿路上皮屏障完整性中起关键作用。近年来的证据表明,UPK3A过表达与BUC患者的晚期肿瘤分期、侵袭性表型和较短生存期相关。其潜在致癌机制可能涉及p53信号失调、增殖增强或免疫逃逸。在膀胱癌腔面亚型中,UPK3A过表达与独特的转录程序和化疗或免疫治疗耐药性相关。其细胞表面定位使其成为抗体药物偶联物(Antibody-Drug Conjugates, ADCs)的潜在靶点。
除了分子标志物,本研究还纳入了中性粒细胞计数和白细胞尿等系统性炎症指标。这些参数反映了宿主的全身免疫状态,通常预示促肿瘤炎症微环境或抗肿瘤免疫抑制。它们的纳入提升了模型的实用性和临床整合便利性。
模型开发遵循严谨流程,LASSO回归(λ=0.009)进行特征选择,随后使用LightGBM、XGBoost和RF等集成学习算法进行分类。所有模型在验证队列中均表现出稳健性能(AUC>0.74)。DCA和CIC证实了其临床实用性,SHAP值揭示UPK3A表达、血管侵犯和神经浸润对结局预测贡献最大。这种可解释性契合了医学中对可解释人工智能(Explainable AI)日益增长的重视。
重要的是,该模型遵循了欧洲肿瘤内科学会(ESMO)关于尿路上皮癌多维度风险评估的建议。通过整合肿瘤生物学、宿主免疫和临床病理变量,该方法在粒度和预测准确性上超越了传统分期系统,支持了精准医学和数据驱动肿瘤学的愿景。
然而,本研究也存在一些局限性。回顾性设计和单区域队列可能限制其普适性。免疫组化未能捕获UPK3A的翻译后修饰或可变剪接变体。尽管所有免疫组化切片均由两位经验丰富的病理学家独立审查,但未计算观察者间一致性系数(如kappa统计量)。未来研究应采用标准化UPK3A评分协议,并纳入数字图像分析或自动量化以减少测量偏倚。虽然模型稳健,但仍需在更大规模的多中心队列中进行外部验证以确认可重复性。未来工作应整合空间转录组学、单细胞RNA测序和蛋白质组学分析,以揭示UPK3A驱动的致癌网络和治疗耐药机制。此外,探索UPK3A沉默或抗体阻断的功能研究将为其治疗潜力提供关键见解。
结论
本研究通过整合UPK3A蛋白表达、系统性炎症标志物和临床病理特征,提出了一个可解释的多模态术后BUC预后模型。该模型在内部训练和验证队列中均表现出良好的预测准确性和临床实用性,其中LightGBM、随机森林和XGBoost性能最优。经AUC-ROC、校准、DCA和CIC评估,其稳健性和临床适用性得到确认。UPK3A过表达的独立预后相关性凸显了其作为生物标志物和治疗靶点的双重潜力。尽管模型源于单中心回顾性队列,但它为BUC的个体化风险分层提供了一个实用框架。未来在多中心前瞻性队列中进行验证,并纳入动态和分子数据流,对于进一步优化和临床实施该方法至关重要。
生物通微信公众号
知名企业招聘