hdcuremodels：用于高维数据混合治愈模型拟合的R包开发与应用

《CMES - Computer Modeling in Engineering and Sciences》：Forecasting Performance Indicators of a Single-Channel Solar Chimney Using Artificial Neural Networks

【字体：大中小】 时间：2026年01月01日 来源：CMES - Computer Modeling in Engineering and Sciences

编辑推荐：

　　针对高维生物标志物数据中生存分析存在“治愈”人群的挑战，研究人员开发了R包hdcuremodels。该工具通过广义单调递增前向分段（GMIFS）和期望最大化（EM）算法，实现了对Weibull、Exponential和Cox等混合治愈模型（MCM）的惩罚性拟合，解决了变量选择与模型估计的难题，为精准医学研究提供了强大的统计建模支持。

在生物医学和临床研究中，生存分析是评估患者预后、药物疗效及疾病进展的核心工具。然而，传统生存模型如Cox比例风险模型（Cox Proportional Hazards Model）通常假设所有个体最终都会经历终点事件（如死亡、复发）。这一假设在肿瘤学、慢性病管理等许多领域并不成立，因为存在一部分“治愈”或“免疫”的个体，他们永远不会发生终点事件。例如，在癌症研究中，部分患者经过治疗后可能达到长期无病生存，即被“治愈”。忽略这一“治愈”人群的存在，会导致对生存函数的错误估计，并可能得出有偏的协变量效应结论。

为了更准确地刻画这类数据，混合治愈模型（Mixture Cure Model, MCM）应运而生。MCM将总体人群分为两部分：一部分是“易感”人群，他们最终会经历事件，其生存时间遵循某种分布；另一部分是“治愈”人群，他们永远不会经历事件。该模型通过一个“发病率”组件来建模个体成为“治愈”者的概率，以及一个“潜伏期”组件来建模“易感”人群的生存时间分布。

随着高通量测序技术的发展，生物标志物数据（如基因表达谱）的维度（变量数）往往远超样本量（p >> N），即高维数据。在这种场景下，传统的MCM拟合方法面临严峻挑战。一方面，直接拟合包含所有变量的模型会导致过拟合和参数估计不稳定；另一方面，从海量变量中筛选出真正与“治愈”概率或生存时间相关的生物标志物，即变量选择，变得至关重要。

为了解决高维数据下的MCM拟合与变量选择问题，研究人员开发了R包hdcuremodels。该软件包实现了两种核心算法：广义单调递增前向分段（Generalized Monotone Incremental Forward Stagewise, GMIFS）算法和期望最大化（Expectation-Maximization, EM）算法，用于拟合惩罚化的MCM。该包支持Weibull、Exponential和Cox等参数及半参数模型，并集成了LASSO、SCAD和MCP等多种惩罚函数，能够有效处理高维协变量，实现稀疏模型的构建。

关键技术方法

本研究开发了hdcuremodels R包，其核心是实现了两种用于拟合惩罚化混合治愈模型（MCM）的算法。该包支持Weibull、Exponential（参数模型）和Cox（半参数模型）作为潜伏期分布。对于变量选择，它集成了LASSO、SCAD和MCP三种惩罚函数。主要技术方法包括：1）广义单调递增前向分段（GMIFS）算法，通过迭代更新系数路径实现变量选择；2）期望最大化（EM）算法，将未观察到的“治愈”状态作为潜变量，通过E步计算期望，M步最大化惩罚似然函数来估计参数；3）交叉验证（CV）和模型-X Knockoff方法，用于模型选择和变量筛选的假发现率（FDR）控制。

研究结果

1. 广义单调递增前向分段（GMIFS）算法

该算法通过迭代方式更新惩罚化系数。在每一步，它选择对似然函数梯度贡献最大的变量，并将其系数增加一个小的增量（默认为0.001）。该过程持续进行，直到似然函数的变化小于预设容差或达到最大迭代次数。该算法的一个关键优势在于，它不需要预先指定惩罚参数，而是生成一个完整的系数路径，允许用户在事后根据信息准则（如AIC、BIC）选择最优模型。

2. 期望最大化（EM）算法

EM算法将“治愈”状态视为一个未观测的潜变量。在E步（期望步），算法基于当前参数估计计算每个个体属于“治愈”或“易感”状态的后验概率。在M步（最大化步），算法将E步计算出的后验概率作为权重，分别最大化发病率（通常为逻辑回归）和潜伏期（如Cox回归）组件的惩罚似然函数。对于Cox MCM，基线风险函数使用Breslow型估计量进行估计。该算法迭代进行E步和M步，直至参数估计收敛。

3. 模型性能评估与变量选择

hdcuremodels包提供了多种工具来评估模型性能。auc_mcm函数计算平均得分插补曲线下面积（AUC），用于评估模型区分“治愈”与“易感”个体的能力。concordance_mcm函数计算C统计量，用于评估模型的预测准确性。此外，包内还集成了交叉验证（CV）功能，可用于选择最优的惩罚参数。对于更严格的变量选择，用户还可以选择使用模型-X Knockoff方法，该方法能够控制变量选择的假发现率（FDR）。

结论与讨论

hdcuremodels R包填补了高维数据下混合治愈模型（MCM）拟合与变量选择软件工具的空白。与现有的其他R包（如flexsurvcure、cuRe、smcure等）相比，hdcuremodels是少数能够有效处理p >> N情形，并实现稀疏模型构建的工具之一。其核心贡献在于实现了GMIFS和EM两种算法，并支持多种惩罚函数（LASSO、SCAD、MCP）和潜伏期分布（Weibull、Exponential、Cox），为用户提供了灵活且强大的建模选择。

该包的应用意义重大。在精准医学和生物标志物发现研究中，研究人员经常面临高维基因组数据，并希望从中筛选出与患者“治愈”概率或生存时间相关的关键分子标志物。hdcuremodels为此类研究提供了严谨的统计框架，能够同时处理“治愈”现象和高维协变量，从而得出更可靠、更具生物学意义的结论。通过惩罚化拟合，该包不仅提高了模型的预测性能，还增强了模型的可解释性，有助于识别真正有预后价值的生物标志物。

尽管该包功能强大，但作者也指出了其当前的一些局限性。例如，目前仅支持Weibull、Exponential和Cox潜伏期分布，未来计划扩展至Gamma、Log-Normal等更多参数分布。此外，对于Cox MCM，EM算法支持所有三种惩罚函数，但对于Weibull和Exponential模型，目前仅支持LASSO惩罚。未来的开发方向还包括整合机器学习方法（如XGBoost、神经网络）到MCM框架中，以进一步提升模型的拟合能力和预测精度。

热点排行

新闻专题