扩展病例队列设计中主要与次要结局的群体代表性推断:基于iPSYCH研究的实证验证
《Discover Public Health》:Population-representative inference for primary and secondary outcomes in extended case-cohort designs
【字体:
大
中
小
】
时间:2025年10月10日
来源:Discover Public Health
编辑推荐:
本研究针对病例队列设计在处理次要结局和延长随访时性能不明的问题,以丹麦iPSYCH研究为范本,系统评估了逆概率加权法在扩展应用中的有效性。结果表明,加权后的发病率、绝对风险等指标与全队列估计高度一致,为利用病例队列样本开展多病种、长周期流行病学研究提供了方法学支撑。
在当今大规模人群研究中,如何高效利用有限样本获取可靠的流行病学参数始终是方法学研究的焦点。病例队列设计通过纳入全部主要结局病例和随机亚队列,为这一难题提供了解决方案,但其在分析次要结局和延长随访期时的有效性尚不明确。随着丹麦iPSYCH等大型基因队列的建立,这一问题愈发凸显——研究者既希望充分利用这些珍贵样本探索多种健康结局,又担忧统计推断的准确性。传统方法学文献虽提及逆概率加权可用于此类扩展分析,但缺乏实际数据验证,特别是在同时涉及多重病例组和长期随访的复杂场景下。
为填补这一知识空白,来自丹麦奥胡斯大学国家登记研究中心的研究团队开展了一项方法学实证研究,成果发表于《Discover Public Health》。研究以全球最大精神病学病例队列iPSYCH为平台,系统比较了加权病例队列估计与全人群队列结果的一致性,为未来利用类似设计开展多维度健康研究提供了坚实证据。
研究团队主要采用了几项关键技术方法:基于丹麦全国登记系统(包括民事登记系统、精神病学研究中心登记册和患者登记册)构建全人群队列(1981-2008年出生,n=1,657,449);利用iPSYCH病例队列样本(n=141,265),包含5种精神障碍病例组(n=93,608)和随机人群亚队列(n=50,615);应用逆概率权重(病例权重=1,非病例权重为入样概率倒数)进行加权分析;通过广义加性模型、Kaplan-Meier估计和Cox回归分别计算发病率、绝对风险和风险比,并使用稳健方差估计置信区间。
全队列包含1,657,449名个体,从1岁随访至死亡、移民或2015/2021年底。iPSYCH样本中识别出43,519例情感障碍和5,039例癫痫患者。加权后的人年数与全队列几乎完全相同,为后续比较奠定了基础。
加权后的年龄别发病率曲线与全队列结果高度吻合。以情感障碍(主要结局)和癫痫(次要结局)为例,整个iPSYCH样本的发病率与全队列估计几乎一致(情感障碍1.68/1000人年 vs 全队列1.67;癫痫0.75 vs 0.72)。
同样,加权绝对风险曲线也与全队列结果高度一致。40岁时情感障碍风险估计为7.9%(95%CI 7.5-8.3)vs 全队列8.0%(7.9-8.1);癫痫风险为2.3%(2.1-2.5)vs 全队列2.3%(2.2-2.3)。
自闭症谱系障碍(作为时变暴露)与情感障碍和癫痫的关联分析显示,加权发病率比率与全队列结果相似。截至2021年底,情感障碍的发病率比率在iPSYCH样本中为3.02(2.68-3.40)vs 全队列3.08(2.96-3.21);癫痫为3.37(2.96-3.84)vs 全队列3.62(3.36-3.88)。
对其他主要和次要结局的重复分析均显示加权估计与全队列高度一致。使用平均权重(非病例统一权重32.74)的结果与出生队列特异性权重相似。而未加权分析则出现严重偏倚,如30岁时绝对风险被高估2-12倍,凸显了加权处理的必要性。
本研究通过全国登记数据证实,逆概率加权能在iPSYCH等复杂病例队列样本中产生有效的群体代表性推断。加权方法在所有情景和扩展应用中表现优异,有效上加权个体和人年数以匹配全队列。所有流行病学测量指标(包括疾病发生和关联测量)的加权估计均与全队列结果高度吻合,涵盖样本确定、暴露、随访时长以及主要和次要结局等各种情景。
研究的重要发现包括:即使对于2006-2008年出生队列(权重约78.93)和癫痫等罕见结局,提出的权重方法仍表现完美;分析应包含所有主要病例组和亚队列,即使关注单一主要结局,以提高数据利用效率;次要结局(包括年龄别发病率、绝对风险和发病率比率)的推断在加权样本和全队列间具有可比性;延长随访后,加权病例队列分析仍能准确反映全队列估计,但主要结局的发病率比率精确度有所下降,这可能与主要结局在2015年前已完全抽样有关。
与UK Biobank等存在参与偏倚的队列相比,iPSYCH病例队列设计的群体代表性优势明显,为研究各种登记基础上的长期次要结局提供了理想平台。研究也承认了一些局限性:未比较其他加权方案;绝对风险曲线因未考虑竞争风险而可能轻微高估;权重在初始选择后施加额外限制时可能非最优。
尽管如此,结果在不同患病率、发病年龄和诊断效度的结局间的一致性表明,本研究结果可能推广到其他次要结局。这项研究为利用扩展病例队列设计(包括次级表型)进行流行病学研究的有效性提供了概念验证,表明逆概率加权是一种将扩展病例队列研究的流行病学发现推广到一般群体的可行方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号