基于弹性网络正则化的胜率回归:变量选择与风险预测的创新策略及其在心血管疾病研究中的应用

【字体: 时间:2025年04月18日 来源:BMC Medical Research Methodology 3.9

编辑推荐:

  在分析分层复合终点时,胜率回归在处理高维数据集存在局限。研究人员开展 “Regularized win ratio regression for variable selection and risk prediction” 研究,提出弹性网络型正则化方法。结果显示该方法优于传统 Cox 回归,为分层复合终点研究提供了新途径。

  在医学研究的广阔领域中,对于分层复合终点(如在心血管疾病研究中,将死亡等严重结局置于比非致命性次要事件更优先的地位进行分析)的分析,胜率(win ratio)这一统计工具正发挥着日益重要的作用。它通过对治疗组和对照组患者进行配对,依据预先设定的结局等级来判定 “赢”“输” 或 “平局”,进而计算胜率,这种方式充分尊重了不同结局的临床重要性,能更全面地评估治疗效果。
然而,现有的胜率回归框架存在明显不足。传统的比例胜率分数(PW)模型虽能结合协变量进行分析,但仅限于低维数据集。当面对众多潜在的预测变量时,研究人员往往需要从大量候选变量中手动筛选相关特征,这不仅困难重重,而且主观性强。在著名的 HF-ACTION 试验中,记录了大量的基线变量,手动评估每个变量的相关性并决定其是否纳入模型既不切实际又容易出错。即使样本量足够大能够容纳所有变量,为了保证模型的可解释性和实用性,更精简的模型通常是首选。因此,开发一种能有效平衡变量选择与模型性能的自动化方法迫在眉睫。

为了解决这些问题,美国威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的研究人员开展了关于 “Regularized win ratio regression for variable selection and risk prediction” 的研究。他们提出了一种弹性网络型正则化方法用于胜率回归,将弹性网络的优势引入到胜率回归模型中,旨在实现更高效的变量选择和更精准的风险预测。该研究成果发表在《BMC Medical Research Methodology》上。

研究人员在开展研究时,运用了以下几个主要关键技术方法:

  1. 模型构建:基于弹性网络(elastic net)方法,通过重新构建标准胜率解,将其转化为一个目标函数的最小化问题,类似于成对 “条件” 逻辑回归的负对数似然函数,以此来拟合正则化的胜率模型。
  2. 交叉验证:采用基于受试者划分的交叉验证方法,而非传统的基于成对数据的交叉验证。这样可以避免因成对数据间的相关性导致的过拟合问题,通过在不同的受试者子集上进行模型训练和验证,提高模型的可靠性。
  3. 性能评估:使用广义一致性指数(generalized concordance index)来衡量模型的预测性能,该指数基于 Harrell’s C-index 进行扩展,能够更好地评估模型在分层复合终点预测中的表现。

研究结果如下:

  1. 模拟研究
    研究人员设定了两种场景,场景 1 中协变量对生存时间和非致命事件时间的影响模式相同,场景 2 中影响模式不同。在不同样本量下进行模拟,结果显示在变量选择方面,当协变量影响模式不同时,传统的正则化 Cox 回归模型在识别重要变量时表现较差,而新提出的方法(wrnet)则具有更高的敏感性和特异性。在预测准确性方面,在场景 2 中,Cox 模型在预测死亡预后时表现极差,导致总体一致性明显低于 wrnet 方法。这表明,当协变量对结局成分的影响不同时,wrnet 方法在变量选择和风险预测方面均优于传统的 Cox 回归模型。
  2. 真实世界应用
    研究人员对 HF-ACTION 研究中的数据进行分析,选取了基线心肺运动(CPX)持续时间为 9 分钟或更短的 426 名高风险亚组患者。通过将数据按 4:1 的比例划分为训练集和测试集,并进行 10 折交叉验证来寻找最优的 λ 值。结果显示,新的胜率回归模型在总体 C 指数上优于正则化 Cox 模型,在预测死亡和住院方面均有一定优势。从选择的变量来看,虽然两种模型有部分重叠,但胜率回归模型选择的变量能更准确地反映患者结局,例如女性患者比男性患者预后更好等。

在研究结论和讨论部分,研究人员开发的弹性网络型胜率回归正则化方法在变量选择和风险预测方面展现出显著优势。它通过对重要事件(如死亡)的优先考虑,有效克服了传统首次事件分析中过度强调次要事件的缺陷。与传统的 Cox 回归模型相比,该方法能更好地反映患者结局的实际影响,提高了模型的可解释性和泛化能力。

然而,该研究也存在一些局限性。一方面,成对比较带来的计算成本在大样本量时可能过高;另一方面,模型假设的胜率 - 损失概率的比例性可能会被违反,而且回归模型难以灵活处理非线性效应和相互作用。未来的研究可以朝着探索更高效的算法、改进模型以适应时变效应以及扩展方法来处理非线性关系等方向展开。总体而言,这项研究为分层复合终点的研究提供了新的思路和方法,对医学研究和临床实践具有重要的指导意义,有望推动相关领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号