相关数据多状态模型中的变量选择及其在COVID-19疫苗接种研究中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Statistics in Medicine》：Variable Selection in Multistate Models for Correlated Data With Application in a COVID-19 Vaccination Study

【字体：大中小】 时间：2026年06月09日 来源：Statistics in Medicine 1.8

编辑推荐：

　　在卫生服务和流行病学研究中，描绘患者在多个临床状态之间的转移是一个常见目标。多状态模型（multistate models, MSM）是此类研究中使用的首要分析方法。尽管MSM的结构通常由特定应用的研究问题决定，但模型通常很复杂，具有多条转移路径和大量参数。这

在卫生服务和流行病学研究中，描绘患者在多个临床状态之间的转移是一个常见目标。多状态模型（multistate models, MSM）是此类研究中使用的首要分析方法。尽管MSM的结构通常由特定应用的研究问题决定，但模型通常很复杂，具有多条转移路径和大量参数。这种复杂性在参数估计中引入了计算和数值挑战，并在模型解释中造成了科学困难。使这些问题更加复杂的是固有的受试者内相关性。例如，在接受冠状病毒病2019（COVID-19）疫苗的患者护理转移研究中，同一受试者内不同状态间的转移时间往往相关。未能适应这些相关性可能导致低效的估计和有问题的推断。在本文中，研究人员提出了一种用于相关数据MSM中变量选择的方法，通过重新参数化似然函数并用光滑双曲正切函数近似惩罚项。该方法在MSM中强制稀疏性。研究人员进行了一项广泛的模拟研究，以评估变量选择和参数估计的准确性。最后，研究人员将该方法应用于分析一项来自接受COVID-19疫苗个体护理转移观察性研究的数据，重点关注四个健康状态：健康、感染、急诊科或住院、以及死亡。

**论文解读**

**研究背景与问题**

在卫生服务和流行病学研究中，量化患者在不同健康状态间的转移是一个核心目标。多状态模型（multistate models, MSM）是描述此类系统的主要统计工具，通过同时建模多个状态间的转移，将传统生存分析进行了扩展。然而，MSM在实际应用中面临严峻挑战：当转移路径众多时，协变量数量会以乘数级增加参数总量，导致计算困难、模型解释复杂。此外，同一受试者内不同转移间存在固有的相关性（如COVID-19疫苗接种研究中，感染、急诊/住院及死亡等事件的转移时间相互依赖），忽略了这种相关性会导致估计效率低下及推断有偏。现有变量选择方法（如逐步选择、最优子集选择（best subset selection, BSS））难以覆盖整个参数空间且扩展性差；正则化方法（如LASSO）虽被用于MSM，但需要选择调谐参数，计算负担大且可能产生偏差。更重要的是，这些方法均未考虑共享脆弱性（shared frailty）所引入的转移间相关性。因此，亟需一种能同时处理变量选择、参数估计以及相关转移的集成方法。

**研究内容与结论**

本研究提出了一种基于最小近似信息准则（minimum approximated information criterion, MIC）的变量选择方法，用于具有相关转移的MSM。该方法通过重新参数化似然函数、用光滑双曲正切函数近似惩罚项，实现了无需调谐参数的稀疏建模。广泛的模拟研究验证了该方法在变量选择和参数估计上的准确性。将该方法应用于一项COVID-19疫苗接种后护理转移的观察性研究数据（来源于印第安纳州20000名疫苗接种者队列），重点关注四个健康状态（健康、感染、急诊/住院、死亡）间的六种非可逆转移。结果显示，该方法能有效识别出与各转移显著相关的协变量，如性别、年龄、合并症等，其估计的置信区间合理，且与现有文献结论一致。相比之下，传统MSM软件（如R包mstate）无法收敛或给出矛盾结果。该研究发表在《Statistics in Medicine》上，为复杂相关数据MSM的变量选择提供了一种实用、计算高效的解决方案。

**主要技术方法**

研究人员采用最小近似信息准则（MIC）进行变量选择，通过将L₀范数用光滑双曲正切函数近似，并将回归系数β重新参数化为γ的变换，将离散优化转为连续优化，同时避免调谐参数选择。模型使用分段常数基线风险函数（将时间分为10个等宽子区间）近似非参数基线风险；通过引入共享脆弱性项（假设服从标准正态分布）刻画同一受试者内转移间的相关性；利用SAS的PROC NLMIXED过程，采用非自适应高斯积分（9个积分点）和准牛顿优化算法实现参数估计。样本队列来源于印第安纳州20000名至少接种一剂COVID-19疫苗的受试者，医疗记录来自印第安纳州患者护理网（INPC），疫苗接种和检测记录来自州卫生部门，死亡记录来自州生命统计。

**研究结果**

**模拟研究：** 研究人员设计了六种模拟场景，改变样本量（N=500或1000）和基线转移强度函数（常数、平方根、正弦函数）进行评估。结果显示，所提方法的真阳性率（true positive rate, TPR）平均超过95%，而假阳性率（false positive rate, FPR）极低（平均接近0），正确选择比例（proportion of variables correctly selected, PC）超过97.5%。参数估计的偏倚随着样本量增加而减小，覆盖概率接近名义水平95%。与包含所有变量的全模型相比，MIC方法的均方误差（mean square error, MSE）更小，且接近仅包含真系数的Oracle模型。

**敏感性分析：** 研究人员通过改变协变量类型（加入二分类协变量）、脆弱性分布（正态改为伽马分布）、基线风险子区间数（5到20）以及错误指定脆弱性分布，验证了方法的稳健性。结果表明，在脆弱性分布被正确指定时，各项性能指标保持良好；即使错误指定分布，变量选择性能（TPR、FPR）仍稳健，但参数估计偏倚增大。当忽略脆弱性时，偏倚和FPR显著恶化。与仅有连续协变量相比，分类协变量在过渡事件较少时导致估计偏倚增加，但样本量增大时偏倚减小。

**与LASSO的比较：** 在无脆弱性的模拟设置下，研究人员将所提MIC方法（MIC-MSM）与L1mstate（LASSO在MSM中的实现）进行了对比。结果显示，两者在非零系数估计上性能相似，但LASSO的FPR极高（0.687），而MIC-MSM仅为0.001，导致LASSO的正确选择比例（PC）仅0.657，而MIC-MSM为0.997。此外，MIC-MSM的计算速度约为LASSO的三倍（平均每迭代1.05秒 vs 3.25秒）。

**COVID-19数据应用：** 研究人员将方法应用于印第安纳州20000名疫苗接种者的护理转移数据，分析20个潜在协变量（包括4个人口学变量和16个合并症指标）对六种转移的影响。主要发现包括：男性与感染及住院风险降低相关（风险比（hazard ratio, HR）分别为0.78和0.84）；年龄增加与感染风险降低（HR=0.82）但死亡风险升高相关；多种合并症（如哮喘、慢性肾病、慢性阻塞性肺病、高血压等）与不良健康转移风险升高相关；接种时间指标显示早期接种者突破性感染风险升高，而2022年下半年首次接种者突破感染后死亡风险显著升高（HR=2.30）。模型还预测了不同脆弱性水平下假想患者的转移概率，展示了未观测异质性的影响。传统mstate模型无法在包含所有时期指标时收敛，且其估计结果矛盾（如脑血管疾病对健康向感染转移呈保护作用），而MIC-MSM未选择这些变量。

**讨论与研究结论**

讨论部分指出，MIC方法有效解决了MSM中变量选择与模型拟合的相互依赖问题，尤其适用于存在转移内相关性的复杂场景。其无需调谐参数的优势在较大规模MSM中尤为突出。然而，该方法目前仅考虑了前向转移和基线变量，可逆转移与时变协变量的扩展尚待验证。共享单变量脆弱性虽然计算简洁，但可能无法捕捉更复杂的相关模式，错误指定依赖结构会影响转移特异关联的解释。此外，方法对样本量敏感，尤其是罕见事件的估计需要大样本。尽管存在这些局限，研究人员仍提出了一种实用的方法，用于同时选择和拟合具有相关转移的MSM，并通过真实世界数据分析展示了其应用价值。

**研究结论翻译：** 尽管存在这些局限，研究人员提出了一种实用的方法，用于同时选择和拟合具有相关转移的MSM，并通过真实世界数据分析展示了其应用。

联系信箱：

粤ICP备09063491号

热点排行