一种基于对数线性分析的方法,用于通过诊断代码合并来规范住院费用模型的规则化处理

《Healthcare Analytics》:A log-linear analytics approach to cost model regularization for inpatient stays through diagnostic code merging

【字体: 时间:2025年11月07日 来源:Healthcare Analytics CS4.4

编辑推荐:

  医疗成本模型中ICD-10诊断代码的层次截断与系数稳定性研究 摘要:针对高维稀疏的ICD-10诊断代码导致线性回归模型系数不稳定的问题,本文提出通过层次截断(truncation)合并相似代码的隐式正则化方法。通过分析MedPAR数据集,发现代码粒度(如从7位降至2位)降低能有效增加Hessian矩阵迹值,减少系数方差,提升稳定性。实验表明,截断后的模型在保持预测精度(R2约0.3-0.41)的同时,系数Spearman相关系数从0.75提升至0.9。对比HCC和DRG分组方案,本文方法在减少代码数量(从19,249降至227)的同时,保持了更好的稳定性。

  在医疗健康领域,成本模型的构建对于预测和分析医疗支出具有重要意义。这些模型通常用于估算、分析和理解医疗支出的模式,它们为政策制定者和研究人员提供了关键的工具。然而,使用大量详细的国际疾病分类第十版(ICD-10)诊断代码的成本模型常常会产生不稳定的结果,而这种不稳定性背后的成因尚未被充分理解。本研究通过引入一种数学框架,将模型系数的变异性与诊断代码的不均衡分布以及回归模型的结构联系起来,为这一问题提供了新的视角。我们提出了一种透明的方法,通过分层截断将相似的诊断代码合并,从而提高系数的稳定性。使用医疗保险数据,我们展示了这种方法如何明确地揭示代码细节与模型可靠性之间的权衡,为基于诊断的成本建模提供了一个实用且可解释的工具,供分析人员和政策制定者使用。

### 研究背景

医疗健康数据的高维特性是普遍存在的,这种特性体现在大量的患者观察值和众多特征上,例如人口统计信息、提供者信息、财务记录和诊断代码。高维性对学习稳定和鲁棒的表示形式提出了挑战,通常需要使用正则化或降维方法。例如,岭回归引入了一个系数收缩的惩罚项,从而减少了方差并缓解了过拟合,尽管这会增加额外的偏差。在深度学习中,池化层同样用于减少特征维度,使得更高效和有意义的表示学习成为可能。然而,这些非线性操作虽然提高了灵活性,但往往通过掩盖个体变量对预测的影响来降低可解释性。

### 问题陈述

本研究分析了纽约下州地区医疗保险提供者分析与回顾(MedPAR)数据集中的住院成本数据。每个住院记录最多有25个分配的诊断代码。结果变量是住院成本的对数转换值,而预测变量是二进制变量,表示特定ICD-10代码的存在。我们应用普通最小二乘(OLS)回归方法,对随机子集的训练数据进行建模,并在保留的测试集上评估。训练数据的平均R2值约为0.45,测试数据的R2值接近0.41。图1A展示了测试数据的预测对数成本与真实值之间的关系,而图1B则列出了使用不同训练数据时回归系数的一致性。尽管OLS模型的预测得分优于美国卫生与公共服务部(HHS)健康状况分类(HCC)风险调整模型,但OLS回归系数在子样本之间高度不一致,这使得这些系数难以用于开发可靠的ICD-10基风险评分。

### 提出的解决方案

为了解决基于诊断代码的成本模型中的OLS系数不稳定性,我们引入了一种隐式正则化机制,通过ICD-10代码的合并和截断。这一方法在降低维度的同时保留了诊断代码的层次结构。由于ICD-10代码频率遵循幂律分布,少数代码出现频率极高,而大多数代码出现频率较低,导致小的Hessian特征值和大的系数方差。代码截断通过合并频率较低的代码,减轻了这种不平衡,从而增加了Hessian的迹并提高了系数的稳定性。虽然截断已经被用于解决疾病预测中的稀疏性问题,但其在稳定系数和理论与Hessian结构之间的联系尚未被研究。为了衡量这一效果,我们提出了一种稳定性度量,基于子样本间系数的斯皮尔曼相关性,并将其与岭回归和DRG/HCC分组作为经验基准进行比较。

### 方法

本研究开发了一种基于诊断的对数线性回归框架,用于建模住院成本。一个核心方法论挑战是当模型在随机子样本上重新拟合时,OLS系数的不稳定性。这种现象源于ICD-10代码频率的重尾分布,即少数代码出现频率极高,而大多数代码出现频率较低,导致Hessian特征值较小,系数方差较大。为了量化这种效应,我们定义了一个系数稳定性度量,并展示了小的Hessian特征值是高方差的主要来源。我们考察了两种互补的稳定化策略:(i) 岭回归,通过L2惩罚项扩大小特征值,从而减少所有方差;(ii) 通过ICD-10截断实现的分层代码合并,增加Hessian的迹并作为隐式正则化机制。与传统的DRG或HCC分组方案不同,我们提出的方法在理论上保持了诊断的精细度,同时在结构上提高了系数的稳定性。

### 数据

MedPAR限制数据集包含了所有在美国接受住院服务的医疗保险和医疗补助受益人的全面出院信息。每个记录代表一次住院,汇总了与连续住院期相关的所有索赔,从入院到出院。数据集包括详细变量,描述了患者的人口统计信息、医院标识符、财务信息(如总费用和支付)、诊断和程序代码以及时间相关要素,如入院和出院日期。对于本研究,我们分析了FY2018 MedPAR文件的一个地理定义子集。为了在保持可管理数据规模的同时保留足够的样本量和临床多样性,我们将样本限制在纽约下州,包括威斯特切斯特、布朗克斯、纽约(曼哈顿)、皇后区、布鲁克林、斯塔滕岛、纳骚和苏福克县。这个区域子集构成了每年全国MedPAR数据集的大约3%。

### 普通最小二乘和二进制变量

我们让变量$ y $表示住院成本的对数(以10为底)。该变量被建模为与$ x $的线性函数,$ x $表示特定ICD-10代码的存在。我们应用OLS回归在随机训练子集上拟合模型,并在保留的测试集上评估。平均训练R2值约为0.45,测试R2值接近0.41。图1A展示了测试数据的预测对数成本与真实值之间的关系,而图1B列出了使用不同训练数据时的回归系数。这种不稳定性使得这些系数难以用于开发可靠的ICD-10基风险评分。

### 一致性度量

我们通过反复将数据分成训练集和测试集来评估一致性,每次都估计回归系数。如果估计值一致,那么不同子集之间的系数对应会相对相等。我们将这些对视为双变量分布的样本,并使用斯皮尔曼相关性来衡量它们的一致性,这比使用其他度量方法更少受异常值的影响。我们定义了一致性度量$ \eta $,作为所有不同对的斯皮尔曼相关性的平均值,这为我们提供了一种衡量系数一致性的方法。

### 变化代码粒度作为隐式正则化

我们探讨了通过截断ICD-10代码来减少粒度对模型性能的影响。ICD-10-CM代码有7个字符,以大写字母(A-Z)开头,表示广泛疾病类别,接着是两个数字,表示该类别中的具体疾病,随后是3-4个字符。为了保持语义意义,代码合并可以通过截断到固定长度$ l $来实现。我们考察了代码粒度变化对Hessian矩阵的影响,并展示了如何通过减少粒度来增加Hessian的迹,从而影响回归系数的方差。

### Hessian矩阵特征

在最高粒度级别($ l = 7 $),设计矩阵是稀疏且二进制的。高效计算Hessian矩阵$ X^{\prime}X $是可能的,通过NumPy的稀疏矩阵操作。我们注意到,Hessian矩阵的对角线元素对应于特定代码的频率。图4F展示了这些对角线元素的对数-对数直方图,它遵循一个幂律分布,指数约为1.93。我们还注意到,这种行为在FY-2019和FY-2020的子集中也出现。这种行为类似于自然语言中单词频率分布,表明存在强代码间相关性。

### HCC和DRG代码分组

为了评估不同代码分组对模型性能的影响,我们还考虑了HCC和DRG分组方案。HCC提供了一种标准化的ICD-10代码分组方法,广泛用于风险调整模型。ICD-10-CM代码与HCC代码之间存在许多对一映射,CMS文档中有所记录。我们使用FY2018数据集中的子集来展示HCC代码频率分布。与图4F中的ICD-10频率分布不同,HCC基表示减少了长尾模式,即稀有代码的数量远多于常见代码。

### 结果

本节展示了使用FY2018数据集进行回归分析的结果。我们评估了对数线性模型在不同诊断代码粒度和正则化强度下的预测准确性和系数稳定性。预测性能通过训练-测试分割来评估,从1%到60%不等,而系数稳定性则通过重复的80-20子采样来评估,以确保数据分区的独立性。我们还报告了HCC和DRG分组方案以及决策树和随机森林模型的结果。所有分析均使用Scikit-Learn进行。

### 系数一致性

我们通过计算一致性度量$ \eta $(公式11)来评估不同训练子集之间的系数一致性。我们使用10个OLS模型,这些模型是基于随机抽取的训练子集拟合的。随着代码粒度的降低,系数一致性得到改善。通过将不同子集的系数向量进行散点图比较,我们发现较低的粒度使得系数散点图更加集中,从而提高了模型的稳定性。

### 讨论

本研究探讨了不同ICD代码粒度和模型正则化对预测准确性和系数稳定性的影响。我们发现,Hessian矩阵的对角线元素遵循一个幂律分布,反映了高度倾斜的代码频率景观。这种不平衡导致与稀有代码相关的系数不稳定,可以通过代码聚合或岭回归等隐式正则化方法缓解。我们还引入了一个有效维度的上界,以统一不同样本大小和正则化水平下的模型准确性。将预测准确度与有效维度进行比较,导致了性能曲线的经验收敛,这表明它作为稀疏设置下模型容量的有意义代理。

### 局限性

我们的方法基于代码粒度(截断或聚合)来合并ICD代码,这是一种减少维度的策略。虽然系统且可重复,但它没有使用临床知识来识别功能或因果相关的代码。相比之下,像CMS-HCC这样的实际系统依赖专家整理的分组来确保可解释性和政策相关性,而我们的方法并未尝试复制这一点。分析使用了地理受限的MedPAR FY2018数据集,仅覆盖纽约下州的提供者。医院在该地区较大,成本较高,患者人口统计数据与全国平均值不同。因此,从该子集估计的OLS系数可能无法推广到其他地区。尽管我们的方法是数据无关的,但对其他数据集或年份进行验证是必要的。

### 结论

本研究通过应用OLS方法,使用从ICD-10代码中提取的稀疏指示符建模医院住院成本的对数。我们发现了一个关键问题:不同训练子样本之间的回归系数不稳定。为了解决这个问题,我们提出了一种基于斯皮尔曼相关性的度量方法,以量化系数的不一致性。由于OLS系数可以作为对个体患者健康风险的量化,确保一致性与实现准确性和可解释性一样重要。为了缓解不一致性,我们引入了一种截断方法,将ICD-10代码分组,从而聚合回归变量。从数学角度来看,小的Hessian特征值是由于稀有代码的出现频率较低,导致OLS系数估计的高方差。通过减少ICD-10代码的粒度,我们有效地增加了Hessian矩阵的迹,这作为隐式正则化形式,提高了系数的稳定性。此外,通过分析Hessian矩阵对角线元素的分布,我们观察到减少代码粒度缓解了稀有代码的过度表示。现有的分组方案如HCC和DRG同样有助于缓解由于稀有代码而导致的稀疏性,从而产生稳健、可解释且实用的风险调整模型。总之,我们提出的基于截断的正则化方法在可解释的OLS模型和现代机器学习方法之间建立了一个概念桥梁,使得在保持诊断特征透明度的同时实现稳定性与维度减少成为可能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号