处理缺失随访时间的策略比较:对侧乳腺癌发病率的对比分析及其方法学意义
《Cancer Epidemiology》:Approaches to handle missing follow-up time: A comparative analysis of contralateral breast cancer incidence
【字体:
大
中
小
】
时间:2025年10月16日
来源:Cancer Epidemiology 2.3
编辑推荐:
本研究针对癌症登记数据中常见的缺失随访时间和生存状态问题,以对侧乳腺癌(CBC)发病率为案例,系统比较了忽略缺失值(naive approach)、单次插补(SI)和三种多重插补(MI)模型等方法。结果表明,尽管不同方法得出的CBC发病率估计值存在细微差异,但均显示CBC发病率随时间下降的趋势。多重插补法能够有效利用所有病例数据,是处理此类缺失数据的适宜方法,有助于提高癌症登记数据分析的准确性和完整性。
在癌症研究领域,准确的数据是评估疾病负担、治疗效果和长期预后的基石。癌症登记处承担着收集这些关键信息的重任,但其数据质量受到多种因素的挑战,其中之一便是患者随访信息的缺失。有些患者可能因为移居外地、信息链接错误或历史数据数字化不足等原因,在登记系统中成了“不朽者”(immortals)——即系统未能更新其死亡信息,导致他们看似一直存活。这种情况会直接影响对癌症患者生存率、第二原发癌发病率等关键指标的估计。以往的研究在处理这类缺失数据时方法不一,有的直接忽略,有的采用单次插补,但哪种方法更优,在真实世界数据中缺乏系统比较。
为了回答这个问题,由Sarah R. Haile、Miriam Wanner、Dimitri Korol和Sabine Rohrmann组成的研究团队,利用瑞士苏黎世和楚格州癌症登记处1980年至2016年间的数据,进行了一项方法学比较研究。她们以异时性对侧乳腺癌(CBC)的发病率作为分析案例,系统地评估了不同方法处理缺失随访时间对结果的影响。这项研究发表在《Cancer Epidemiology》上,为癌症登记数据的分析方法提供了重要的实证依据。
研究人员开展这项研究主要运用了几个关键技术方法。研究基于瑞士苏黎世和楚格州癌症登记处的大规模队列数据,纳入了24,778名20-84岁的单侧乳腺癌患者。统计分析采用泊松回归模型处理过度离散数据,核心是比较五种处理缺失随访时间的方法:直接忽略缺失值的方法、基于瑞士乳腺癌生存数据的单次插补法,以及三种不同复杂度的多重插补模型(分别纳入不同组合的协变量如年龄组、发病年份、组织学类型和基线风险函数等)。所有分析均使用R语言(版本4.5.1)完成,多重插补通过mice包实现。
最终分析纳入了24,778名符合标准的女性单侧乳腺癌患者。其中约有5.1%(1,256名)被登记处标记为失访或2021年后无随访数据。总观察人年数为304,659年,共记录了1,218例对侧乳腺癌病例。
无论采用哪种缺失数据处理方法,研究都揭示了对侧乳腺癌发病率随时间推移而下降的明确趋势。以多重插补模型B(MI (B))的结果为例,总体CBC发病率为每10万人年415例(95%置信区间374-460)。发病率随年龄增长呈下降趋势,30多岁诊断的患者发病率最高(512/10万人年),80岁以上患者最低(325/10万人年)。更重要的是,近年来发病率显著下降,2010-2016年期间诊断的患者CBC发病率降至244/10万人年。不同组织学类型也显示出差异,初始诊断为导管癌的患者CBC发病率最低。
比较不同处理方法的结果发现,单次插补法(SI)倾向于给出最低的发病率估计值,且置信区间最窄,这符合单次插补会低估标准误的已知特性。直接忽略缺失值的方法(naive)估计值比多重插补法低约10-20/10万人年。三种多重插补模型得出的估计值相对接近,其中模型B的结果在各亚组中最为稳健。多重插补法的置信区间略宽,恰当地反映了因数据缺失带来的不确定性。
研究讨论部分指出,无论采用哪种方法处理缺失数据,都观察到CBC发病率下降的趋势,这与国际上的研究结论一致, likely due to the increased use of hormone therapies such as tamoxifen。在方法学层面,研究人员强调,单次插补法虽然操作简单,但会导致估计偏差和过窄的置信区间。相比之下,多重插补法能够纳入所有符合条件的个体,更充分地利用数据信息,是处理癌症登记数据中缺失随访时间或生存状态的推荐方法。此外,多重插补技术不仅适用于填补随访信息,也可用于处理其他缺失的协变量(如肿瘤分期、激素受体状态等),有助于减少因简单剔除缺失病例而导致的选择偏倚。
研究的优势在于其大样本量、长随访时间以及预先设定的多种分析方法比较方案。局限性在于无法获知CBC发病率的真实值,因此难以直接评估各种方法的绝对准确性。同时,分析未纳入某些已知的CBC风险因素(如激素治疗、手术方式、遗传易感性等),但研究人员认为这些因素与随访信息缺失的相关性可能不强。
该研究得出结论:瑞士的对侧乳腺癌发病率自1980年代以来持续下降。在方法论上,强烈推荐使用多重插补法来处理癌症登记数据中缺失的随访时间或生存状态,这有助于充分利用所有可用数据,提高分析结果的准确性和可靠性,从而提升基于癌症登记数据的研究质量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号