编辑推荐:
为解决传统 PG-SGA 评估癌症患者营养不良复杂、临床应用受限的问题,研究人员开展基于机器学习快速识别 PG-SGA≥4 患者的研究。采用 XGBoost 等模型,发现 BMI、HGS 等是关键预测因子,为临床筛查提供新方法。
癌症患者的营养不良问题一直是临床诊疗中的棘手挑战。据统计,22.6%-94.6% 的癌症患者存在营养不良,这不仅会削弱免疫系统、影响器官功能,还会导致治疗效果下降、预后恶化。目前,患者主观整体评估(PG-SGA)是评估营养不良的金标准,但其依赖患者主观回忆、耗时长且需专业人员操作,难以在临床广泛推广。因此,如何快速、准确地识别营养不良高风险患者,成为亟待解决的重要课题。
为攻克这一难题,电子科技大学医学院、国家癌症中心等机构的研究人员开展了一项前瞻性研究,相关成果发表在《BMC Cancer》。研究旨在通过机器学习方法,建立简便高效的营养不良筛查模型,提升临床对 PG-SGA≥4(提示显著营养风险)患者的识别能力。
研究人员收集了 2022 年 7 月至 2024 年 3 月期间,四川省肿瘤医院 416 例癌症患者的 798 条记录,涵盖人口学特征、肿瘤信息、实验室指标和身体状况等数据。主要采用了以下关键技术方法:
- 数据预处理:对缺失值采用中位数插补和多重插补,对异常值结合临床判断处理,对分类变量进行独热编码,对连续变量标准化或归一化。
- 机器学习模型构建:评估了 LightGBM、XGBoost、Random Forest 等 6 种算法,通过十折交叉验证、嵌套交叉验证结合网格搜索优化参数,并利用 SMOTE 处理类别不平衡问题。
- 特征重要性分析:运用 Shapley 加性解释(SHAP)方法解析模型,结合逻辑回归验证关键预测因子。
研究结果
机器学习模型性能评估
在 6 种模型中,随机森林(Random Forest)和 XGBoost 表现最佳。随机森林的受试者工作特征曲线下面积(AUC)达 0.77(95% CI:0.69-0.84),XGBoost 的几何均值(Gmean)最高为 0.71,二者在识别 PG-SGA≥4 患者中展现出较强的判别能力。
关键预测因子识别
多因素逻辑回归分析确定了 4 个独立预测 PG-SGA≥4 的关键指标:
- 身体质量指数(BMI,kg/m2):优势比(OR)=0.82(95% CI:0.66-0.99,P=0.045),BMI 越低,营养不良风险越高。
- 握力(HGS,kg):OR=0.89(95% CI:0.82-0.96,P=0.004),握力下降与营养不良显著相关。
- 去脂体重指数(FFMI,kg/m2):OR=1.36(95% CI:1.01-1.88,P=0.045),FFMI 升高提示肌肉量减少,风险增加。
- 卧床状态:OR=3.16(95% CI:1.17-9.14,P=0.026),卧床患者的营养不良风险是非卧床者的 3 倍以上。
性别分层分析与模型解释
通过 SHAP 分析发现,BMI、HGS、FFMI 和卧床状态在不同性别中均为重要特征。性别分层的限制立方样条分析显示,这些指标与 PG-SGA≥4 的关联存在性别差异,提示临床需考虑性别特异性阈值。
研究结论与意义
本研究证实,BMI、HGS、FFMI 和卧床状态可作为高效筛查 PG-SGA≥4 患者的实用指标。机器学习模型通过整合多维度数据,克服了传统 PG-SGA 的主观性和操作复杂性,为临床快速识别营养不良高风险患者提供了客观、高效的新工具。
研究结果不仅为癌症患者的营养管理提供了可量化的筛查策略,还有助于推动个性化医疗实践 —— 通过性别特异性指标优化评估精度,促进及时的营养干预,改善患者生活质量和预后。尽管研究存在单中心样本局限性,但其提出的模型框架和关键指标为后续多中心验证及临床转化奠定了基础,有望在资源有限的医疗环境中发挥重要作用,提升癌症患者整体诊疗水平。