基于机器学习的晚期肺癌低倍率DRG分类预测模型比较研究及其在医保智能监管中的应用价值

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月15日 来源：Frontiers in Public Health 3.4

编辑推荐：

　　本综述系统比较了机器学习模型（逻辑回归、混合朴素贝叶斯、支持向量机和随机森林）在预测晚期肺癌低倍率DRG（诊断相关分组）分类中的性能。研究表明随机森林算法在AUC、准确率和精确度方面表现最优，且成本相关特征和住院天数（LoS）等"资源消耗"指标比人口学特征对预测贡献更大。研究为DRG支付体系下智能识别升级编码（upcoding）和合理用药监管提供了量化支持，对推进医保支付方式改革具有重要实践意义。

引言

DRG医保支付体系在全球范围内被广泛采用以控制医疗成本，其核心是通过社会平均成本进行 reimbursement。低倍率病例指医疗费用低于DRG组平均成本的案例，医院可能从中盈利，而高倍率病例则可能导致医院承担经济损失。准确的DRG分组对医院运营和财务绩效至关重要，但传统人工编码方式存在主观性强、效率低下的问题，且可能存在故意升级编码（upcoding）或减少必要治疗以牟利的行为。

晚期肺癌（主要为非小细胞肺癌NSCLC）患者多数确诊时已处于III-IV期，需接受内科治疗。近年来其治疗方案从化疗转向靶向治疗和免疫检查点抑制剂（ICIs），导致治疗成本和方案差异性增大。中国CHS-DRG 1.0版将接受内科治疗的肺癌患者划分至MDC E（呼吸系统疾病），核心ADRG编码包括ER11（伴严重并发症或合并症）、ER13（伴一般并发症/合并症）和ER15（无并发症/合并症）。但该分类主要反映"临床过程"，对"资源消耗"和"患者特征"的考量不足。

机器学习模型构建

研究采用四种机器学习算法构建预测模型：

随机森林（Random Forest）通过集成多棵决策树和多数投票机制，有效处理结构化数据中的复杂非线性关系；

混合朴素贝叶斯（Hybrid Na?ve Bayes）针对连续变量（如成本、LoS）采用高斯分布假设，对分类变量（如性别、ICD编码）采用类别分布建模；

支持向量机（SVM）通过寻找最优超平面实现分类，适用于特征清晰的分类任务；

逻辑回归（Logistic Regression）则适用于特征与目标变量存在近似线性关系的场景。

数据来源与预处理

数据来源于浙江省某三级综合医院2022-2024年间的12,640例肺癌内科住院病例。经过去重、缺失值处理、医疗价格指数调整和自费病例排除后，最终纳入2,324例（ER11:631例，ER13:1,305例，ER15:388例）。描述性统计显示：

•
男性患者占比高于女性（70-75% vs 25-30%），与全国癌症统计数据一致
•
75岁以上患者在ER11和ER13组中占比超50%，ER15组仅15.9%
•
主要诊断编码C34.900×001（肺恶性肿瘤）占比超50%
•
高倍率DRG病例比例较低（ER11:7.6%，ER13:1.8%，ER15:7.4%）
成本数据和LoS均呈现右偏分布（偏度>+1），采用对数转换和[0,1]范围归一化处理。

预测模型性能比较

通过5折分层交叉验证评估模型性能：

随机森林在AUC（ER11:0.994, ER13:0.991, ER15:0.971）、准确率（ER13最高达95.47%）和精确度方面表现最优，且稳定性最佳（标准差最小）

逻辑回归和SVM在召回率方面更具优势，适合需要最小化漏诊的场景

朴素贝叶斯模型整体表现较弱，特别是在精确度方面

值得注意的是，样本量最大的ER13组模型性能最优（ROC曲线最平滑），而样本量最小的ER15组性能相对较差，表明数据量对模型泛化能力有重要影响。

特征重要性分析

随机森林模型的特征重要性排名显示：

"资源消耗"相关变量（药品费、材料费、输血费、检查检验费、LoS）对模型构建贡献最大

人口学特征（年龄、性别）和ICD诊断编码贡献较小

特别值得注意的是，检查检验费在所有ER组中均呈现高重要性，这可能与upcoding行为相关——本应分入RE1/RU2组的患者被刻意分入ER1组后，其检查检验费用可能低于真正的ER1病例，导致低倍率DRG。

讨论与结论

研究表明CHS-DRG 1.0版对晚期肺癌患者的分类设计合理，能够有效区分不同组别间的成本差异。基于模型特征重要性分析，建议重点关注：

ER1亚组住院期间的检查检验费异常降低（可能提示upcoding）

ER11组（伴严重并发症）的药物治疗情况（防止故意减少保险覆盖药物的使用）

在模型选择方面，大样本量有助于提升模型稳定性；若追求高精确度和稳健性推荐随机森林，若需要高召回率则建议选择逻辑回归或SVM。

通过机器学习模型自动预测低倍率DRG病例，可早期识别潜在的不合理医疗行为，支持DRG预付制从事后审核向事中、事前监管转变，为医保支付改革提供技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号