
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的晚期肺癌低倍率DRG分类预测模型比较研究及其在医保智能监管中的应用价值
【字体: 大 中 小 】 时间:2025年09月15日 来源:Frontiers in Public Health 3.4
编辑推荐:
本综述系统比较了机器学习模型(逻辑回归、混合朴素贝叶斯、支持向量机和随机森林)在预测晚期肺癌低倍率DRG(诊断相关分组)分类中的性能。研究表明随机森林算法在AUC、准确率和精确度方面表现最优,且成本相关特征和住院天数(LoS)等"资源消耗"指标比人口学特征对预测贡献更大。研究为DRG支付体系下智能识别升级编码(upcoding)和合理用药监管提供了量化支持,对推进医保支付方式改革具有重要实践意义。
DRG医保支付体系在全球范围内被广泛采用以控制医疗成本,其核心是通过社会平均成本进行 reimbursement。低倍率病例指医疗费用低于DRG组平均成本的案例,医院可能从中盈利,而高倍率病例则可能导致医院承担经济损失。准确的DRG分组对医院运营和财务绩效至关重要,但传统人工编码方式存在主观性强、效率低下的问题,且可能存在故意升级编码(upcoding)或减少必要治疗以牟利的行为。
晚期肺癌(主要为非小细胞肺癌NSCLC)患者多数确诊时已处于III-IV期,需接受内科治疗。近年来其治疗方案从化疗转向靶向治疗和免疫检查点抑制剂(ICIs),导致治疗成本和方案差异性增大。中国CHS-DRG 1.0版将接受内科治疗的肺癌患者划分至MDC E(呼吸系统疾病),核心ADRG编码包括ER11(伴严重并发症或合并症)、ER13(伴一般并发症/合并症)和ER15(无并发症/合并症)。但该分类主要反映"临床过程",对"资源消耗"和"患者特征"的考量不足。
研究采用四种机器学习算法构建预测模型:
随机森林(Random Forest)通过集成多棵决策树和多数投票机制,有效处理结构化数据中的复杂非线性关系;
混合朴素贝叶斯(Hybrid Na?ve Bayes)针对连续变量(如成本、LoS)采用高斯分布假设,对分类变量(如性别、ICD编码)采用类别分布建模;
支持向量机(SVM)通过寻找最优超平面实现分类,适用于特征清晰的分类任务;
逻辑回归(Logistic Regression)则适用于特征与目标变量存在近似线性关系的场景。
数据来源于浙江省某三级综合医院2022-2024年间的12,640例肺癌内科住院病例。经过去重、缺失值处理、医疗价格指数调整和自费病例排除后,最终纳入2,324例(ER11:631例,ER13:1,305例,ER15:388例)。描述性统计显示:
男性患者占比高于女性(70-75% vs 25-30%),与全国癌症统计数据一致
75岁以上患者在ER11和ER13组中占比超50%,ER15组仅15.9%
主要诊断编码C34.900×001(肺恶性肿瘤)占比超50%
高倍率DRG病例比例较低(ER11:7.6%,ER13:1.8%,ER15:7.4%)
成本数据和LoS均呈现右偏分布(偏度>+1),采用对数转换和[0,1]范围归一化处理。
通过5折分层交叉验证评估模型性能:
随机森林在AUC(ER11:0.994, ER13:0.991, ER15:0.971)、准确率(ER13最高达95.47%)和精确度方面表现最优,且稳定性最佳(标准差最小)
逻辑回归和SVM在召回率方面更具优势,适合需要最小化漏诊的场景
朴素贝叶斯模型整体表现较弱,特别是在精确度方面
值得注意的是,样本量最大的ER13组模型性能最优(ROC曲线最平滑),而样本量最小的ER15组性能相对较差,表明数据量对模型泛化能力有重要影响。
随机森林模型的特征重要性排名显示:
"资源消耗"相关变量(药品费、材料费、输血费、检查检验费、LoS)对模型构建贡献最大
人口学特征(年龄、性别)和ICD诊断编码贡献较小
特别值得注意的是,检查检验费在所有ER组中均呈现高重要性,这可能与upcoding行为相关——本应分入RE1/RU2组的患者被刻意分入ER1组后,其检查检验费用可能低于真正的ER1病例,导致低倍率DRG。
研究表明CHS-DRG 1.0版对晚期肺癌患者的分类设计合理,能够有效区分不同组别间的成本差异。基于模型特征重要性分析,建议重点关注:
ER1亚组住院期间的检查检验费异常降低(可能提示upcoding)
ER11组(伴严重并发症)的药物治疗情况(防止故意减少保险覆盖药物的使用)
在模型选择方面,大样本量有助于提升模型稳定性;若追求高精确度和稳健性推荐随机森林,若需要高召回率则建议选择逻辑回归或SVM。
通过机器学习模型自动预测低倍率DRG病例,可早期识别潜在的不合理医疗行为,支持DRG预付制从事后审核向事中、事前监管转变,为医保支付改革提供技术支撑。
生物通微信公众号
知名企业招聘