《Statistics in Medicine》:Variable Selection in Multistate Models for Correlated Data With Application in a COVID-19 Vaccination Study
编辑推荐:
在卫生服务和流行病学研究中,描绘患者在多个临床状态之间的转移是一个常见目标。多状态模型(multistate models, MSM)是此类研究中使用的首要分析方法。尽管MSM的结构通常由特定应用的研究问题决定,但模型通常很复杂,具有多条转移路径和大量参数。这
在卫生服务和流行病学研究中,描绘患者在多个临床状态之间的转移是一个常见目标。多状态模型(multistate models, MSM)是此类研究中使用的首要分析方法。尽管MSM的结构通常由特定应用的研究问题决定,但模型通常很复杂,具有多条转移路径和大量参数。这种复杂性在参数估计中引入了计算和数值挑战,并在模型解释中造成了科学困难。使这些问题更加复杂的是固有的受试者内相关性。例如,在接受冠状病毒病2019(COVID-19)疫苗的患者护理转移研究中,同一受试者内不同状态间的转移时间往往相关。未能适应这些相关性可能导致低效的估计和有问题的推断。在本文中,研究人员提出了一种用于相关数据MSM中变量选择的方法,通过重新参数化似然函数并用光滑双曲正切函数近似惩罚项。该方法在MSM中强制稀疏性。研究人员进行了一项广泛的模拟研究,以评估变量选择和参数估计的准确性。最后,研究人员将该方法应用于分析一项来自接受COVID-19疫苗个体护理转移观察性研究的数据,重点关注四个健康状态:健康、感染、急诊科或住院、以及死亡。
**论文解读**
**研究背景与问题**
在卫生服务和流行病学研究中,量化患者在不同健康状态间的转移是一个核心目标。多状态模型(multistate models, MSM)是描述此类系统的主要统计工具,通过同时建模多个状态间的转移,将传统生存分析进行了扩展。然而,MSM在实际应用中面临严峻挑战:当转移路径众多时,协变量数量会以乘数级增加参数总量,导致计算困难、模型解释复杂。此外,同一受试者内不同转移间存在固有的相关性(如COVID-19疫苗接种研究中,感染、急诊/住院及死亡等事件的转移时间相互依赖),忽略了这种相关性会导致估计效率低下及推断有偏。现有变量选择方法(如逐步选择、最优子集选择(best subset selection, BSS))难以覆盖整个参数空间且扩展性差;正则化方法(如LASSO)虽被用于MSM,但需要选择调谐参数,计算负担大且可能产生偏差。更重要的是,这些方法均未考虑共享脆弱性(shared frailty)所引入的转移间相关性。因此,亟需一种能同时处理变量选择、参数估计以及相关转移的集成方法。
**研究内容与结论**
本研究提出了一种基于最小近似信息准则(minimum approximated information criterion, MIC)的变量选择方法,用于具有相关转移的MSM。该方法通过重新参数化似然函数、用光滑双曲正切函数近似惩罚项,实现了无需调谐参数的稀疏建模。广泛的模拟研究验证了该方法在变量选择和参数估计上的准确性。将该方法应用于一项COVID-19疫苗接种后护理转移的观察性研究数据(来源于印第安纳州20000名疫苗接种者队列),重点关注四个健康状态(健康、感染、急诊/住院、死亡)间的六种非可逆转移。结果显示,该方法能有效识别出与各转移显著相关的协变量,如性别、年龄、合并症等,其估计的置信区间合理,且与现有文献结论一致。相比之下,传统MSM软件(如R包mstate)无法收敛或给出矛盾结果。该研究发表在《Statistics in Medicine》上,为复杂相关数据MSM的变量选择提供了一种实用、计算高效的解决方案。
**主要技术方法**
研究人员采用最小近似信息准则(MIC)进行变量选择,通过将L
0范数用光滑双曲正切函数近似,并将回归系数β重新参数化为γ的变换,将离散优化转为连续优化,同时避免调谐参数选择。模型使用分段常数基线风险函数(将时间分为10个等宽子区间)近似非参数基线风险;通过引入共享脆弱性项(假设服从标准正态分布)刻画同一受试者内转移间的相关性;利用SAS的PROC NLMIXED过程,采用非自适应高斯积分(9个积分点)和准牛顿优化算法实现参数估计。样本队列来源于印第安纳州20000名至少接种一剂COVID-19疫苗的受试者,医疗记录来自印第安纳州患者护理网(INPC),疫苗接种和检测记录来自州卫生部门,死亡记录来自州生命统计。
**研究结果**
**模拟研究:** 研究人员设计了六种模拟场景,改变样本量(N=500或1000)和基线转移强度函数(常数、平方根、正弦函数)进行评估。结果显示,所提方法的真阳性率(true positive rate, TPR)平均超过95%,而假阳性率(false positive rate, FPR)极低(平均接近0),正确选择比例(proportion of variables correctly selected, PC)超过97.5%。参数估计的偏倚随着样本量增加而减小,覆盖概率接近名义水平95%。与包含所有变量的全模型相比,MIC方法的均方误差(mean square error, MSE)更小,且接近仅包含真系数的Oracle模型。
**敏感性分析:** 研究人员通过改变协变量类型(加入二分类协变量)、脆弱性分布(正态改为伽马分布)、基线风险子区间数(5到20)以及错误指定脆弱性分布,验证了方法的稳健性。结果表明,在脆弱性分布被正确指定时,各项性能指标保持良好;即使错误指定分布,变量选择性能(TPR、FPR)仍稳健,但参数估计偏倚增大。当忽略脆弱性时,偏倚和FPR显著恶化。与仅有连续协变量相比,分类协变量在过渡事件较少时导致估计偏倚增加,但样本量增大时偏倚减小。
**与LASSO的比较:** 在无脆弱性的模拟设置下,研究人员将所提MIC方法(MIC-MSM)与L1mstate(LASSO在MSM中的实现)进行了对比。结果显示,两者在非零系数估计上性能相似,但LASSO的FPR极高(0.687),而MIC-MSM仅为0.001,导致LASSO的正确选择比例(PC)仅0.657,而MIC-MSM为0.997。此外,MIC-MSM的计算速度约为LASSO的三倍(平均每迭代1.05秒 vs 3.25秒)。
**COVID-19数据应用:** 研究人员将方法应用于印第安纳州20000名疫苗接种者的护理转移数据,分析20个潜在协变量(包括4个人口学变量和16个合并症指标)对六种转移的影响。主要发现包括:男性与感染及住院风险降低相关(风险比(hazard ratio, HR)分别为0.78和0.84);年龄增加与感染风险降低(HR=0.82)但死亡风险升高相关;多种合并症(如哮喘、慢性肾病、慢性阻塞性肺病、高血压等)与不良健康转移风险升高相关;接种时间指标显示早期接种者突破性感染风险升高,而2022年下半年首次接种者突破感染后死亡风险显著升高(HR=2.30)。模型还预测了不同脆弱性水平下假想患者的转移概率,展示了未观测异质性的影响。传统mstate模型无法在包含所有时期指标时收敛,且其估计结果矛盾(如脑血管疾病对健康向感染转移呈保护作用),而MIC-MSM未选择这些变量。
**讨论与研究结论**
讨论部分指出,MIC方法有效解决了MSM中变量选择与模型拟合的相互依赖问题,尤其适用于存在转移内相关性的复杂场景。其无需调谐参数的优势在较大规模MSM中尤为突出。然而,该方法目前仅考虑了前向转移和基线变量,可逆转移与时变协变量的扩展尚待验证。共享单变量脆弱性虽然计算简洁,但可能无法捕捉更复杂的相关模式,错误指定依赖结构会影响转移特异关联的解释。此外,方法对样本量敏感,尤其是罕见事件的估计需要大样本。尽管存在这些局限,研究人员仍提出了一种实用的方法,用于同时选择和拟合具有相关转移的MSM,并通过真实世界数据分析展示了其应用价值。
**研究结论翻译:** 尽管存在这些局限,研究人员提出了一种实用的方法,用于同时选择和拟合具有相关转移的MSM,并通过真实世界数据分析展示了其应用。