整合数据源中结构化缺失(SM)的处理挑战:机制、影响与多重插补(MICE)策略

【字体: 时间:2025年10月13日 来源:Advanced Intelligent Discovery

编辑推荐:

  本文深入探讨了整合数据源中普遍存在的结构化缺失(Structured Missingness, SM)问题,涵盖多元缺失机制与确定性缺失模式。作者通过临床基因组数据库(CGDB)案例和模拟实验,系统分析了缺失结构、数据相关性及插补方法(如MICE)的交互影响,为大规模数据整合中的缺失值处理提供了关键方法论指导。

  
摘要
随着数据整合技术的普及,大规模集成数据库中必然出现的缺失值处理已成为新兴研究热点。这种被称为结构化缺失(Structured Missingness, SM)的现象涵盖多元缺失机制和确定性非随机缺失模式。本文重点分析了SM带来的挑战,尤其是在插补方面的影响,指出插补效果受缺失结构和数据性质相互作用的影响,并为整合数据中SM的处理提供实践指导。
1 引言
数据整合的广泛应用使得大规模数据集在各研究领域日益常见。此类数据集几乎总是表现出结构化缺失(SM),这一统称涵盖非随机、确定性缺失模式和多元缺失机制。整合数据集通常具有高度多元的缺失机制:当通过链接两个数据集A和B形成新数据集时,B中存在而A中不存在的个体必然在A变量上出现缺失(反之亦然),从而导致确定性缺失关系。此外,当整合数十个小型数据源时,由于个体异质性,缺失常呈现多元性——部分个体本能地抗拒数据收集,仅出现在少数数据源中,因而具有高比例缺失。
在分析整合数据源时,缺失模式显著影响分析流程。确定性缺失常表现为区块缺失(即同一组个体在同一批变量上缺失),而研究人员往往不愿直接对大规模区块缺失进行插补。概率性缺失中,一个变量的缺失可能影响(而非决定)另一变量的缺失,此时分析师也面临处理策略的抉择:何时具备足够观测信息以进行有效多重插补?
现有缺失数据文献虽涉及SM相关问题,但多聚焦于缺失结构的特定方面。例如,有研究提出利用树模型学习缺失数据结构;开发不完全结构化数据的多水平模型;提出针对缺失值区块的非参数插补模型;以及采用图模型表示不完全数据中的多元依赖性。近年来大量基准研究比较了不同缺失数据处理方法(如完整案例分析、单一插补、多重插补和k近邻插补),结果表明最优处理方案往往因数据集而异。本文重点并非直接比较SM处理方法,而是评估插补法——这一被视作处理缺失数据的“万能方案”——在大型整合数据集中处理SM的适用性,并强调其效果受数据相关性、缺失结构、缺失机制及预测模型等多因素影响。
文章结构如下:第2节通过临床基因组数据库(CGDB)案例阐明SM的产生;第3–4节通过模拟实验考察整合不同数据源时SM下的预测问题;第5节基于模拟结果提出SM实践处理指南;第6节进行总结讨论。
2 案例研究:临床基因组数据库(CGDB)中的结构化缺失
为说明SM的挑战,本文展示了一个真实世界的肿瘤学CGDB,该库通过整合Flatiron Health(FH)电子健康记录(EHR)与Foundation Medicine(FMI)的全面基因组分析数据构建,涵盖美国约280家癌症诊所(约800个护理点)的患者。数据库包含22个独立CGDB,其中21个为疾病特异性,1个为疾病无关性。各库均包含FH EHR衍生的回顾性纵向临床数据(含结构化和非结构化患者数据),并通过去标识化确定性匹配链接至FMI基因组数据。
CGDB是涵盖超10万癌症患者的宝贵资源,支持癌症特异性队列研究和跨癌症的泛肿瘤研究(基于跨癌种共享分子特征的新兴范式)。然而,整合不同癌症类型患者数据时,因各类型具有不同临床测量集,SM挑战自然产生。此外,SM可能内在于数据收集和批检验过程(如实验室或基因组检测面板)。
2.1 临床数据中的结构化缺失
以前列腺特异性抗原(PSA)评分时间序列为例:PSA是前列腺癌诊断、筛查和监测的常用血液生物标志物,但对女性患者既不适用也不应检测。男性患者中,PSA检测常规用于前列腺癌患者(尤其放疗或手术后),其他癌症类型患者也可能接受PSA筛查但频率较低。检测决策基于风险因素(如BRCA2突变被确认为前列腺癌诊断和严重性的强风险因子,导致研究界呼吁对携带该突变的男性提早筛查PSA水平)。此外,若某次检测值正常,则下次访视时重复检测需求降低(尤其访视间隔短时),这几乎在缺失指标间创建负相关关系:一次访视的观测增加下次访视缺失的概率(反之亦然)。结果表明,考虑PSA结果时间序列的缺失时,部分患者缺失PSA结果的概率远高于他人——女性患者必然缺失,非前列腺癌男性患者缺失概率高于前列腺癌患者。
2.2 整合临床与基因组数据产生的结构化缺失
需注意CGDB仅包含同时拥有FH EHR和基因组分析检测的癌症患者,未接受基因组分析的患者被排除,这本身就是一种SM形式。CGDB患者接受过一次或多次全面基因组分析检测,各检测测量一组癌症相关基因(数十至数百个基因),部分基因通用于多个检测,部分基因为检测独有(如BCL10基因仅在所有血液学检测中专属测试)。该场景中,缺失以多重重叠区块形式出现。
2.3 CGDB中处理SM的挑战
CGDB中存在大规模缺失并伴随独特挑战。当在统计模型中纳入基因组数据时,因患者接受不同基因组检测,分析师处理方式不明。由于任意两个基因组检测所含基因变量通常存在重叠,插补成为可能选项。通常,分析师可能尝试多重插补缺失值(因其处理随机缺失(MAR)数据的能力被视为“金标准”)。插补法灵活性高,能处理所有变量类型(如连续、二分类、分类变量),且R包mice(通过链式方程进行多元插补,MICE)用户友好。
然而,基因组数据插补在多个层面不可行:当分析师考虑多个基因组检测时,涉及变量数可达数千;且因患者通常只接受一种检测,缺失百分比可能极高。这意味着在实践中无法直接应用MICE。大量变量的存在也导致插补模型可能缺乏鲁棒性,无法捕捉底层分布。
3 模拟研究:考察大规模数据库中的多元缺失结构
3.1 研究问题
通过模拟复制大规模整合数据库中预期的多元缺失模式,研究问题包括:
  • 插补处理多元缺失结构的有效性如何?评估缺失结构对插补(尤其是MICE)效果的影响。
  • 插补处理整合两数据源产生的确定性缺失的效果如何?整合必然导致区块缺失,因部分个体仅出现在一数据源中。此场景下,多重插补这些个体的缺失值以集体分析是一诱人选项。
  • 数据变量依赖性、缺失结构、缺失机制和预测模型等因素如何交互?评估不同缺失结构下插补效果受其他因素影响的情况。
3.2 模拟设置
首先展示缺失模式中结构的影响。设C为n×p数据矩阵(p=100变量,n=2000受试者),由多个小数据源随时间整合而成(如多次诊所访视收集的临床信息)。另设响应变量Y,约50%受试者观测到Y,目标预测另50%受试者的缺失Y值(即50%有Y观测的受试者构成训练集,50%缺失Y的受试者构成验证集)。
3.2.1 数据生成机制
假设C服从100维多元t分布(MVT,3自由度),其中ρ表示变量间相关性(固定ρ=0.4)。假设Y仅依赖于C的前10个变量(即预测变量),而变量11–100为辅助变量(虽不直接影响Y,但可辅助插补预测变量)。
3.2.2 对C施加结构化缺失
设MC为C的缺失指示矩阵,始终保持C中约50%缺失,且缺失指示矩阵与数据值独立(即C中缺失值可描述为MCAR)。变化因素包括:C中缺失结构(即MC内依赖水平)和Y的缺失机制(MCAR vs MAR)。通过Clayton copula对缺失指示矩阵建模生成不同缺失结构:其参数(以Kendall’s τ表示)控制缺失结构水平。τ=0时缺失无结构(随机散布);τ>0时出现“弱结构”(缺失指标间依赖导致多元缺失模式);τ接近1时所有缺失指标完全相关(“强结构”)。强结构下,部分个体几乎无观测数据,其他个体则缺失很少。
3.2.3 对Y施加缺失
设MY为Y的缺失指示向量,始终保持50%缺失,但考虑不同缺失机制:
  • MCAR:Y缺失完全随机,各Y值以概率0.5缺失。
  • MAR1:Y缺失为MAR,缺失依赖于预测变量(变量1–10)。此时假设变量1–10完全观测,对变量11–100引入缺失(为维持C整体50%缺失,对这些变量设α=4/9)。随后用expit模型施加Y缺失。
  • MAR2:Y缺失为MAR,缺失依赖于(部分)辅助变量(变量76–100)。此时假设变量76–100完全观测,对变量1–75引入缺失(设α=1/3)。再用expit模型施加Y缺失。
    MAR1和MAR2机制在预测变量和辅助变量方面代表两种极端场景,均诱导训练集与验证集间的协变量偏移(群体差异)。
3.2.4 预测方法
目标预测缺失Y的约50%受试者。将缺失Y的受试者分配至验证集,其他受试者分配至训练集。使用mice默认设置(如预测均值匹配,生成m=5插补数据集)但增加迭代次数(maxit=50)插补C中缺失值,插补时将Y作为预测变量。训练插补模型时仅使用训练集数据(即Y观测到的矩阵行),故验证集数据不影响插补模型参数估计。
比较不同预测方法:
  • 基线:完全不使用C数据,仅用Y的边际分布预测。
  • Lasso:考虑C所有变量,使用lasso正态回归模型。在训练集内对C变量1–100和Y应用MICE;用这些插补模型插补训练集和验证集中C的缺失值,产生m个插补训练集和验证集;在各插补训练集中估计收缩参数λ(通过glmnet包的cv.glmnet函数),得到m个不同λ值;继续训练数据,将各λ代入glmnet函数估计lasso模型的回归系数,得到m组系数;在各插补验证数据集中,使用lasso回归系数估计Y,得到每个Yi的m个预测,平均得单一预测。
  • Nonlasso:与lasso相同,但预测模型使用Y对C1,…,C100的正态线性回归。
  • Reduced:忽略C的变量11–100(辅助变量)。仅在训练集内对C变量1–10和Y应用MICE;用这些插补模型插补训练集和验证集中C的缺失值;在各插补训练数据集中拟合Y对C1,…,C10的线性回归,所得回归系数用于验证集估计Y,得每个Yi的m个预测,平均得单一预测。
  • Maximum:假设C无缺失值,用真实模型(Y对C1,…,C10)预测缺失Y。
为减少模拟误差,重复20次:1)对C施加缺失;2)插补C缺失值;3)预测缺失Y值。
3.2.5 性能度量
验证集各受试者得5个Yi预测值,平均得预测,与真实Yi比较,关注绝对差异(AD)。
3.3 模拟结果
首先考虑Y缺失为MCAR的情景。缺失结构增强(τ增加)时,AD稳步增加(预测能力下降)。无结构(τ=0)时,各方法的AD低于基线AD,接近最大AD,显示插补价值。强结构(τ=1)时,各方法的AD与基线AD相近,显示插补无效。误差增加通过方差增加而非偏差引入实现。
细察不同预测方法:强结构下,Reduced方法(即MICE仅应用于预测变量而非辅助变量)的AD略高于lasso和nonlasso方法。因此,即使辅助变量不影响Y或Y的缺失,其观测可帮助告知预测变量的缺失值,从而改进预测质量。
当Y缺失遵循MAR1(缺失依赖于预测变量)和MAR2(缺失依赖于辅助变量)机制时,lasso、nonlasso和Reduced方法远优于基线方法,接近最大值,凸显插补益处。这些MAR情景下的预测也远优于MCAR情景(尤其强结构时),原因在于现有部分变量完全观测,故其他变量的结构影响减弱。Reduced方法在MAR2情景表现差:排除辅助变量后,未能充分捕捉Y与缺失机制的关系(Y缺失依赖于变量76–100)。Lasso方法往往优于nonlasso方法(尤其无或弱结构时)。
4 说明性模拟2:处理两个链接数据源
本模拟假设原数据C与另一数据源G(也含100变量)链接,产生更大数据集D(可视为C中部分受试者的遗传信息,故部分受试者完全缺失G数据)。对于拥有G数据的受试者,为简洁假设其完全观测。具体假设50%受试者缺失记录。
本模拟主要考虑如何处理两组受试者:拥有C和G数据者与仅拥有C数据者。
4.1 模拟设置
假设D=(G,C)的联合分布服从200维MVT分布(3自由度),任意两变量相关性0.4。假设响应变量Y依赖于G和C中的变量:Y依赖于G的前70变量和C的前10变量。故虽C的前10变量个体预测性最强,但G的整体贡献大于C。
假设C中存在50%缺失(弱结构,τ=0.6),Y缺失机制为MAR1(更代表实践)。
4.1.1 针对两组受试者的处理策略
受试者分两组:i)拥有G和C数据者;ii)仅拥有C数据者。考虑两种处理方式:一是将组i和组ii一同处理(即视D为单一数据矩阵并应用MICE);二是分离组i和组ii(得两数据矩阵)并独立应用MICE。分离时,G对组ii冗余,预测仅用C。本模拟专注lasso方法。
4.2 结果
组i受试者中,两组一同处理(灰色箱线图)与分离处理(红色箱线图)的AD非常相似。组ii受试者中,一同处理时的AD高于分离处理,表明此实例中插补增加了噪声而未改进预测质量。
5 处理结构化缺失的指南
基于模拟结果,为大规模数据库中SM处理(尤其是插补适用性)提供指南。SM的固有挑战在于其非单一问题,而是影响众多现代数据集的多面问题。面对缺失时,存在将插补视为二元选择(即插补或不插补)的诱惑,但处理SM需更谨慎。通常,既无法对 entire 数据集应用MICE,即使可行也不建议。
5.1 考虑数据中的依赖性
简单设置中,当响应变量与一组协变量独立时,将这些协变量纳入预测模型(必然需插补其缺失值)无任何获益。但大规模设置中情况更复杂,尤其存在给定模型中其他变量的条件依赖时,或使用允许非线性或交互的机器学习(ML)模型时。当无依赖(故无关系需保留)时,分析师不应尝试插补缺失值。
简单设置中,当协变量相互独立时插补也不必要:若响应依赖于一组预测变量,且这些预测变量独立,则插补缺失值无任何价值。插补模型的广义目标是捕捉一组不完全观测变量的底层联合分布,若变量独立,则插补过程变得冗余(所有主流ML和统计建模技术均要求数据无缺失)。此情况下,处理缺失值的等效有效方法是从变量边际分布中抽取值。
5.2 区分预测变量与辅助变量或有益
理论上可区分预测变量与辅助变量,但实践中常困难。某些情景中或可能:如肺癌分析中,关键预测变量为个体是否吸烟。虽该预测信息可能不可得,但或可得辅助信息(如个体性别和社会经济状态)。缺失结构越强、某些受试者信息越缺乏时,纳入此类信息越有价值。在无计算问题时,无论缺失结构如何,对所有可用变量(预测变量和辅助变量)插补缺失值是有效策略。这与“相容性”理念相关:在插补阶段,最好保守行事防止信息损失。
大型数据集(即计算上不再可行对整个数据集应用插补)中,区分两类变量可使插补过程高效。若缺失无结构,分析师可将变量集限制为关键预测变量并对这些关键预测变量应用插补过程。强结构下情况更复杂,因这些关键预测变量自身可能对某些个体仅有很少观测信息。此时辅助变量价值显现,尤其当辅助变量的缺失结构与预测变量的缺失结构不同时。分析师应纳入辅助变量(尤其那些缺失结构不同的)。
5.3 考虑变量内高缺失百分比的影响
另一需考虑 aspect 是高缺失百分比变量的存在,这可能影响甚至应用插补算法的能力。整合数据源加剧该问题。尤其强缺失结构下,可能导致多重共线性问题(尤其变量为二分类时)。例如,多个变量可能在同一批个体上缺失,导致观测值向量小且可能具有相似值。
插补算法常内置处理多重共线性的功能。如估计插补模型的最小二乘估计时,mice从QR分解切换为岭回归。此外,分析师应在应用这些插补算法前缩减变量集。这与前一点(区分预测变量与辅助变量)关联:分析师应优先考虑预测变量,并关注预测变量的缺失结构。
5.4 识别强结构的存在
强结构最常关联区块缺失,可能导致许多受试者(数据行)仅有很少观测。某些推断设置中这不是问题——毕竟,所有标准调查数据集从规模N的群体中抽样n个受试者均可视为受强结构困扰,因未观测的N?n个受试者无信息。但预测设置中,这意味着某些受试者的预测基于很少信息。这是固有问题:无 incomplete 信息可通过插补利用,插补这些缺失值不会让分析师获得任何东西。整合两数据源的特定案例导致强结构。当数据源变量无重叠时,应用插补仅增加噪声,建议替代方法(如将数据分解为更小部分)。
类似地,强结构可能导致文件匹配模式(即观测一变量导致另一变量必然缺失,意味着某些变量从未同时观测)。整合数据集特别容易出现这些模式(因数据集合并方式)。文件匹配缺失模式是插补方面的问题,因无法捕捉某些关系。这可能 lead to 偏差,并在大规模数据集中传播 throughout 变量。分析师应移除变量以避免文件匹配模式。
6 讨论
数据整合的使用意味着真实世界数据集日益复杂,研究人员必须意识到其后果之一:SM。尽管本文阐述了SM的挑战并提供了插补适用性指南,但“我们能做什么?”的问题在很大程度上仍然存在。这是一个复杂的问题,因为除了缺失结构外,它还取决于所涉及数据的性质。可以说,处理SM没有万能药,要取得进展,我们需要关注SM的特定方面。若干论文已触及该领域(如利用树模型学习缺失数据结构、开发不完全结构化数据的多水平模型、提出区块缺失值的非参数插补模型、采用图模型表示不完全数据中的多元依赖性等)。
虽然我们这里专注于MICE(因其在传统应用研究领域流行),但也可使用多种其他方法插补缺失数据,如机器学习方法(包括深度生成模型、基于树的方法或矩阵补全)。需注意某些ML方法(如神经网络或kNN)可能不适用,因为它们将问题视为预测而非插补,并忽略缺失数据中固有的不确定性。这可能 lead to 过度自信的推断并将偏差引入分析。插补不同于预测的良好说明见van Buuren著作(第2章)。基于树的模型(如分类回归树或随机森林)可在MICE框架内应用,并可能提供参数插补模型的稳健替代方案(尤其处理非线性关系时)。矩阵补全方法因可能源自整合数据源的强结构区块缺失而提供有吸引力的途径,但考虑缺失值存在带来的额外不确定性问题仍需解决。与其他现代插补方法的更广泛比较将构成未来研究的有趣方向。
SM本质关联多元缺失概念。因此,未来研究的前进方向或许是聚焦缺失模式和缺失指示矩阵(这一直是未充分探索的研究领域),尤其是将缺失信息纳入分析的概念。但近期该领域关注度增加。Stival等(2023)表明纳入缺失信息改进了跑步者职业生涯分析;另有研究显示当值非随机缺失时,在插补模型中纳入缺失指标可提高插补质量。
通常,缺失值可能通过隐私保护编辑引入数据集。这些数据部分常对应敏感记录(如易在更广泛群体或其他数据源中识别的少数群体,或极端数据点如非常大或小的值)。当隐私保护程序应用于多元数据集时, resulting 编辑可能因敏感值间存在关系而诱导SM(如健康数据中患者共病的存在及随后的编辑)。此处插补缺失值时,考虑结构化性质可能无意中揭示隐藏敏感信息。因此,开发能稳健测试不完全数据集中任何SM存在的方法至关重要,并确定后续纳入学习结构的插补程序是否比原本可能产生更大披露风险。这样做允许更全面评估存在风险,使数据持有者对任何数据发布相关的隐私保护水平更有信心。
随着大型整合数据集生成的模型更广泛采用,SM将日益影响使用这些模型的决策。例如,在医疗保健设置中,预期将遗传数据纳入基于标准临床测量的模型会改进模型性能。然而,SM可能存在于训练和测试数据及部署时(因各种原因,很大比例患者无法接触遗传检测)。这带来一系列挑战:能否对所有患者生成稳健最优预测(无论其是否接受遗传检测);公平性考虑(因遗传检测访问缺乏在特定弱势群体中可能更严重);以及对来自不同群体的所有患者(无论有无遗传检测)稳健表征模型预测性能和不确定性。
总之,SM研究对于释放大型复杂数据库的全部潜力至关重要。我们因此希望本贡献激发统计学界兴趣,以发展解决SM挑战的理论和方法。
利益冲突
作者声明无利益冲突。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号