编辑推荐:
为解决临床预测模型中超参数(HPO)优化方法应用及性能评估问题,研究人员开展极端梯度提升(XGBoost)模型超参数优化方法比较研究,发现 9 种 HPO 方法均提升模型判别(AUC=0.84)与校准性能,对同类数据集有参考价值。
在医疗领域,精准识别高需求高成本医疗用户对资源分配和临床决策至关重要。然而,监督机器学习模型在临床预测中的超参数优化(HPO)方法选择及性能评估尚缺乏系统性研究,且现有临床预测模型报告中对 HPO 方法的应用描述不足。为填补这一空白,多伦多大学(University of Toronto)与加拿大 ICES 研究所的研究人员开展了相关研究,旨在比较多种 HPO 方法对极端梯度提升(XGBoost)模型预测性能的影响,研究成果发表在《BMC Medical Research Methodology》。
研究人员以安大略省 65 岁以上人群的健康管理数据为基础,构建包含约 104 个特征的临床数据集,采用随机抽样、模拟退火、贝叶斯优化(基于树状 Parzen 估计、高斯过程、随机森林)、协方差矩阵自适应进化策略(CMA-ES)等 9 种 HPO 方法,对 XGBoost 模型的 9 个超参数(如学习率、树深度、正则化参数等)进行优化。通过划分训练 / 验证 / 测试集(80:10:10),结合内部(2017 年数据)与外部验证(2019 年时间独立数据),以曲线下面积(AUC)、校准指数(ICI)等指标评估模型判别与校准性能,并分析特征重要性稳定性。
研究结果
模型性能对比
默认超参数的 XGBoost 模型 AUC 为 0.82,而所有 HPO 方法均将 AUC 提升至 0.84,且校准性能接近完美(ICI、E50 等指标近零)。尽管不同 HPO 方法识别的最优超参数组合存在差异,但模型性能无显著差异,提示目标函数可能存在多个局部最优解。
特征重要性分析
通过总增益指标发现,长期护理、慢性家庭护理、痴呆诊断等是预测高需求高成本医疗用户的关键特征。肯德尔 tau 相关系数显示,不同 HPO 方法识别的特征重要性排序具有较高稳定性,表明模型对关键特征的识别一致。
计算效率与泛化能力
模拟退火法运行时间最短(5.2 小时),其余方法耗时 6.4-11.7 小时。内外部验证结果显示,优化后的模型在 2019 年独立数据集上 AUC 保持 0.84,校准性能优异,验证了模型的泛化能力。
结论与讨论
本研究表明,在大样本、低特征维度、强信号噪声比的临床数据中,9 种 HPO 方法均能显著提升 XGBoost 模型的预测性能,且效果相近。这一结果与数据集特性密切相关,提示同类数据集(如电子健康记录、大规模调查数据)可任选 HPO 方法进行模型优化。研究同时指出,尽管现有临床预测模型研究中 HPO 应用不足,但合理的超参数优化对提升模型可靠性至关重要,尤其在特征筛选严格、信号明确的场景中效果显著。未来研究可进一步探索小样本、高维度数据中 HPO 方法的差异,以及元参数调优对模型性能的影响。该研究为临床预测模型的规范化构建提供了方法学参考,强调了 HPO 在提升模型准确性与可靠性中的关键作用。