编辑推荐:
住院时长(LOS)预测对医院管理至关重要。研究人员针对准确预测 LOS 问题,采用生存分析建模普通内科 LOS,并结合 Shapley 值解释模型。结果显示 XGBoost 增强 Cox 模型表现最佳,该研究为优化医院运营效率和制定质量指标提供依据。
在医疗资源紧张的当下,如何精准评估住院时长(Length of Stay, LOS)成为医院管理的核心挑战。传统预测方法难以处理医疗数据中的删失现象(即部分患者未达到目标事件如出院回家就失去随访),且缺乏可解释性,导致模型在临床应用中难以获得信任。此外,不同疾病、人口学特征及社会经济因素对 LOS 的影响机制尚不明确,亟需一种既能准确预测又能揭示关键影响因素的方法。
为解决上述问题,多伦多大学(University of Toronto)与休斯顿大学(University of Houston)的研究团队开展了相关研究。他们利用加拿大安大略省 30 余家医院的 GEMINI 数据库,纳入 10 种常见内科疾病(如脑梗死、心力衰竭、败血症等)的 118,357 例患者数据,旨在通过生存分析建模 LOS,并借助 Shapley 值实现模型解释。研究成果发表于《BMC Health Services Research》,为优化医院资源配置和提升医疗公平性提供了新视角。
主要技术方法
研究采用多种生存分析模型,包括传统的标准 Cox 比例风险模型、树集成方法(XGBoost 增强 Cox 模型、随机生存森林)及深度学习模型(DeepSurv、CoxTime)。通过 10 折交叉验证,以一致性指数(C-index)评估模型性能,并使用 Shapley 值分析特征重要性。数据预处理涉及 30 个入院变量(如年龄、生命体征、合并症评分)及 93 个社会经济变量,最终形成 123 维特征矩阵。
研究结果
1. 疾病间 LOS 差异显著
Kaplan-Meier 曲线显示,脑梗死、神经认知障碍和败血症患者的 LOS 显著更长,提示疾病类型是 LOS 的强预测因子。例如,脑梗死患者的删失率达 53.6%,而尿路感染患者删失率为 28%,反映出不同疾病的预后差异。
2. XGBoost 增强 Cox 模型表现最优
在疾病特异性模型中,XGBoost 增强 Cox 模型的 C-index 普遍高于其他模型(如脑梗死患者中达 0.739),且在 9 种疾病中优于全局模型,表明针对不同疾病定制模型更能捕捉异质性。全局模型中,疾病诊断(如脑梗死、尿路感染)、年龄、社会经济指标(如社区抚养比 census_dependency、就业率 census_lab_part_rate)及合并症评分(如 Charlson 指数、Elixhauser 指数)是 LOS 的关键预测因子。
3. 可解释性分析揭示影响因素
Shapley 值显示,疾病类型贡献最大,其次为衰弱评分(admit_frailty_score)、实验室指标(modified_LAPS)和急诊停留时间(duration_er_stay_hours)。例如,脑梗死患者的预测 LOS 显著延长,而高就业率社区患者的 LOS 较短,提示社会经济因素对医疗结果的潜在影响。
结论与意义
本研究证实生存分析结合可解释 AI 技术(如 Shapley 值)能有效预测 LOS 并识别关键驱动因素。XGBoost 增强 Cox 模型在处理非线性关系和异质性数据方面优势显著,其可解释性为临床决策提供了信任基础。研究发现社会经济指标与 LOS 的关联,提示医疗公平性问题 —— 经济弱势患者可能因资源不足导致住院时间延长。
该成果对医院管理具有多重启示:① 通过疾病特异性模型优化床位分配和人员调度;② 针对高风险人群(如老年、衰弱患者)制定早期干预方案;③ 结合社会经济数据制定政策,减少健康不平等。未来研究可扩展至更多疾病类型,开发实时预测工具,推动精准医疗与智能医院运营的深度融合。