机器学习模型精准预测中国儿科高需求高成本住院患者,助力医疗资源优化配置

【字体: 时间:2025年05月09日 来源:Scientific Reports 3.8

编辑推荐:

  当前全球医疗支出快速增长,高需求高成本(HNHC)患者是主因,且针对该群体的干预效果有限,中国 HNHC 儿科患者预测研究稀缺。研究人员用机器学习方法开发预测模型,发现 MLP 模型预测性能最佳。这为优化医疗资源配置提供依据。

  在全球范围内,医疗支出如同脱缰的野马,一路飙升,给各国的医疗体系带来了巨大压力。而这其中,高需求高成本(HNHC)患者堪称 “主力军”,他们仅占年度医疗支出人群的 5%,却 “吃掉” 了超过一半的总费用。为了应对这一难题,许多国家积极探索各种服务模式,可结果却差强人意,长期成本控制效果不佳。此外,国际上针对 HNHC 患者的研究大多聚焦于成年人,儿童 HNHC 患者预测模型近乎空白。在中国,相关研究也多局限于单一疾病,缺乏对儿科 HNHC 患者全面、综合的分析。正是在这样的背景下,为了填补这一研究空白,上海健康发展研究中心等机构的研究人员开展了一项意义重大的研究。
研究人员通过对 2017 年 1 月 1 日至 2023 年 12 月 31 日上海两个行政数据库的 7 年回顾性队列数据进行深入挖掘,旨在构建一个基于机器学习的 HNHC 儿科患者预测模型。该研究涵盖了所有 18 岁及以下的住院儿童,同时排除了不符合要求的数据,确保了数据的可靠性。

在研究过程中,研究人员运用了多种关键技术方法。数据来源主要为城乡居民基本医疗保险(URBMI)行政数据和儿童医院住院互助基金(CHMF)行政记录。为预测 HNHC 患者,他们构建了 5 种机器学习模型,包括逻辑回归(作为参考模型)、k 近邻(KNN)、随机森林(RF)、多层感知器(MLP)和朴素贝叶斯。通过网格搜索策略结合 k 折交叉验证优化模型超参数,并采用合成少数过采样技术(SMOTE)解决数据不平衡问题 。

下面来看看具体的研究结果。首先是研究样本的特征。2021 年共纳入 91882 名住院儿童,被分为 HNHC(n=4595)和非 HNHC(n=87287)两组。对比发现,HNHC 儿童在年龄分布、性别、户籍、医保类型等方面与非 HNHC 儿童存在显著差异。例如,HNHC 儿童更可能是 1 岁以下或 13 岁以上、女性、上海居民且拥有双重保险(URBMI + CHMF)。疾病方面,HNHC 儿童患严重疾病的比例更高,如 49.14% 的 HNHC 儿童患有 20 种 HNHC 相关疾病中的一种,远高于非 HNHC 儿童。在医疗服务利用上,HNHC 儿童手术比例达 91.64%,平均住院时间为 34.15 天,年住院次数 2.86 次,均高于非 HNHC 儿童。医院特征上,HNHC 儿童更常入住市中心的三级医院。从 2021 - 2023 年,HNHC 患者的住院支出占总支出的比例稳定在 35 - 36%。

接着是 HNHC 患者的预测情况。研究比较了 5 种模型的预测能力,结果显示,4 种机器学习模型的判别能力均优于逻辑回归模型。其中,MLP 模型表现最为出色,其受试者工作特征曲线下面积(ROC-AUC)达到 0.872 。Naive Bayes 模型灵敏度最高(0.567),RF、MLP 和 KNN 模型的特异性均为 1.000。通过计算每个变量的事件数(EPV),发现所有模型的 EPV 均超过 80,远高于过拟合风险阈值(EPV < 20),这表明模型具有较好的稳健性和泛化能力。

然后是预测因子的重要性分析。基于 MLP 模型结果,利用 SHAP(SHapley Additive exPlanations)图量化每个特征的贡献,发现影响预测结果的最重要因素包括住院时间、住院次数、既往 HNHC 状态、年龄以及是否患有 20 种 HNHC 相关疾病。

最后是稳健性分析。研究使用 2022 - 2023 年的外部验证数据集和不同训练测试比(80:20 和 90:10)的内部验证数据评估模型稳健性。结果表明,所有模型在外部验证中的性能均有所下降,但 MLP 模型仍表现最佳(ROC-AUC 为 0.843) 。在内部验证中,改变训练测试比后,所有模型的性能仍保持稳健和一致,MLP 模型继续表现最优。此外,研究还纳入了均方误差(MSE)、均方根误差(RMSE)等额外指标评估模型性能,结果显示模型性能良好。

综合来看,研究人员通过此次研究揭示了中国 HNHC 儿科患者的现状,即 5% 的 HNHC 儿科患者占总住院费用的 35% 以上。同时,成功构建并验证了基于机器学习的预测模型,其中 MLP 模型预测性能最佳。该研究填补了国际上儿科 HNHC 患者预测模型的空白,为临床实践和政策制定提供了重要依据。通过早期识别 HNHC 儿科患者,有助于优化医疗资源配置,实现精准干预,控制医疗成本。然而,研究也存在一定局限性,如难以获取门诊和住院数据的关联信息、模型在其他国家或人群中的泛化性有待验证等。未来研究可进一步拓展数据来源,探索更多预测因子,提升模型性能和适用性,让这一研究成果能更好地服务于全球儿科医疗健康事业。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号