通过融合稀疏组套索惩罚的多状态模型进行变量选择,该模型结合了分子数据
《Biometrical Journal》:Variable Selection via Fused Sparse-Group Lasso Penalized Multi-state Models Incorporating Molecular Data
【字体:
大
中
小
】
时间:2025年10月28日
来源:Biometrical Journal 1.8
编辑推荐:
本文提出了一种融合稀疏组L1索斯(FSGL)罚法结合交替方向乘数法(ADMM)的多状态生存分析模型,用于处理高维数据中的变量选择问题。通过模拟研究和真实AML数据验证,FSGL罚法能够有效识别过渡特异性效应和相似跨过渡效应,减少模型复杂度,提高预测精度。
在医学研究领域,预测模型通常依赖于综合终点(如无进展生存期或无事件生存期)来评估疾病进展和治疗效果。然而,这些综合终点往往忽略了个体疾病过程和治疗路径中的一些关键细节。因此,多状态模型作为一种自然的框架,能够更全面地评估预后因素和治疗对患者事件历史的影响,同时区分不同事件的发生风险。多状态模型通过宏观层面的建模,将竞争风险分析扩展到了事件时间终点,例如进展时间、复发时间、缓解时间或死亡时间,从而能够捕捉事件序列中的复杂动态关系。在生存分析中,多状态模型适用于那些在时间进程中经历一系列事件的个体数据,每个事件都有其对应的进入和退出时间,以及事件类型。本文以急性髓系白血病(AML)的疾病路径为应用背景,介绍了多状态模型在临床研究中的潜力,并探讨了如何利用高维数据进行变量选择和模型简化。
多状态模型的核心在于对不同状态之间的转换进行建模,从而更准确地反映疾病进展和治疗效果。在高维数据背景下,需要有效的建模策略来选择最优的、理想情况下简洁的模型。特别地,跨转换的协变量效应的关联性对于联合变量选择至关重要。为了解决模型复杂性的问题,研究者引入了基于数据驱动的变量选择方法,结合扩展的正则化技术。本文提出了一种融合稀疏组正则化(FSGL)的Cox型回归方法,该方法在多状态模型框架中整合了协变量效应的配对差异和转换分组的概念。通过将这些正则化思想应用于多状态模型的构建,可以更有效地进行变量选择和模型结构优化。
在多状态模型的优化过程中,研究者采用了交替方向乘子法(ADMM)算法,该算法在多状态风险回归中具有分解复杂目标函数的能力。为了验证FSGL方法在高维数据中的效果,研究者在模拟研究和AML数据应用中评估了该算法在选择稀疏模型、整合相关转换效应和类似跨转换效应方面的性能。此外,研究者还探讨了FSGL方法相较于全局Lasso正则化在某些设定下的优势。
多状态模型的变量选择策略需要考虑三个关键特性:稀疏性、相似性和转换分组。稀疏性意味着通过将不重要的协变量系数设为零来简化模型;相似性意味着通过惩罚相似转换之间的协变量效应差异,来识别跨转换的均质效应;转换分组则允许在同一个转换中对变量进行联合选择或缩放至零,从而反映转换之间的分组关系。在实际应用中,这些特性有助于更精确地捕捉疾病进展中的病理过程,并结合临床和分子数据进行更深入的分析。
在本文的研究中,FSGL方法结合了全局Lasso、融合和分组正则化,能够有效处理高维分子数据的建模问题。研究者还讨论了如何通过选择最优的正则化参数来提高模型的性能,例如通过最小化广义交叉验证(GCV)统计量来选择最佳的正则化参数组合。为了进一步验证FSGL方法在不同场景下的效果,研究者还设计了两个额外的模拟场景(B和C),其中包含更多的协变量和不同的回归参数设置。
在实际应用中,研究者利用AMLSG 09-09临床试验的数据,展示了FSGL方法在构建多状态模型时的优势。该试验评估了强化化疗联合戈舍瑞林(GO)在携带NPM1突变的AML患者中的效果。通过FSGL方法,研究者能够有效识别关键的分子标志物和临床协变量对不同转换的影响,并且避免了过度拟合的问题。此外,研究者还讨论了FSGL方法在不同数据规模下的适用性,以及如何通过调整算法参数来提高计算效率。
在研究中,作者强调了多状态模型在精准医学中的重要性。随着分子生物标志物信息的日益丰富,传统的综合终点分析可能无法充分揭示疾病进展和治疗反应的细节。多状态模型能够更细致地分析个体在不同状态之间的转换,从而提供更全面的预后信息。FSGL方法通过结合稀疏性、相似性和转换分组的正则化策略,能够更有效地处理高维数据,同时保持模型的可解释性和稳定性。
此外,研究者还探讨了FSGL方法在多状态模型中的实际应用,例如在AML疾病路径中的状态转换分析。通过将分子标志物和临床协变量纳入模型,FSGL方法能够识别出对特定转换具有重要影响的变量,同时忽略那些对所有转换均无显著影响的变量。这种分组和融合正则化方法不仅有助于模型简化,还能够提高预测的准确性和稳定性。
在方法的实现过程中,研究者详细描述了FSGL方法的优化过程,包括如何利用ADMM算法进行参数估计,以及如何通过正则化参数的选择来优化模型性能。通过模拟研究和实际数据的应用,研究者验证了FSGL方法在处理高维数据时的有效性,并展示了其在临床研究中的实际应用价值。研究结果表明,FSGL方法在稀疏模型选择、相似效应识别和转换分组方面均优于传统的Lasso和无正则化方法。
综上所述,本文提出了一种融合稀疏组正则化(FSGL)的多状态模型,结合了全局Lasso、融合和分组正则化策略,旨在通过数据驱动的变量选择来提高模型的性能。研究者通过模拟研究和实际数据应用,验证了FSGL方法在处理高维分子数据时的有效性,并展示了其在临床研究中的潜力。这种方法不仅能够简化模型,还能更准确地捕捉疾病进展中的关键因素,从而为个性化预后和治疗策略提供支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号