《Environmental Epidemiology》:When are novel methods for analyzing complex chemical mixtures in epidemiology beneficial?
编辑推荐:
这篇综述通过系统的模拟研究,首次将广义线性模型(GLM)等通用方法与贝叶斯核机器回归(BKMR)等新型化学混合物分析方法进行对比。文章强调了一类错误率控制的重要性,并指出在中等相关性、无复杂交互作用或暴露效应相反时,传统方法(如GLM、GAM)优于新型方法;而在高交互作用或高相关性暴露下,新型方法(如BKMR、QGC)才显示出优势。研究为不同数据特征下的方法选择提供了清晰的经验性指导。
统计背景
观察性研究旨在估计化学混合物暴露与健康结局之间的关联,其核心是估计暴露-反应函数h。该函数通过连接函数g与响应变量的期望值关联,通用模型形式为ηi= g(μi) = h(ai1, …, aip) + xiTβX。常见的连接函数包括用于连续数据的恒等连接、用于二分类数据的Logit连接以及用于计数数据的对数连接。本研究为简化起见,未在模型中纳入协变量。
化学混合物的统计方法
分析方法的目标可分为三类:识别混合物中与响应相关的组分、检验混合物整体与响应的关联性、以及进行新数据预测。方法可分为通用方法和新型方法。
通用方法
- •
广义线性模型(GLM):假设在连接函数尺度上,响应与预测变量呈线性关系。非线性或交互作用需用户显式指定。通过F检验或χ2检验可评估混合物整体关联。其系数解释直观,但依赖严格的参数假设。
- •
主成分回归(PCR):先对暴露变量进行主成分分析(PCA)降维,再将响应回归到主成分上。主成分正交性有助于处理共线性,通过F检验评估混合物整体关联。但降维过程忽略与结局的关系,可能遗漏重要组分,且主成分的解释依赖专业知识。
- •
LASSO/弹性网络回归(ENET):通过L1(LASSO)或L1与L2(弹性网络)惩罚项进行变量选择,适用于高维情况。弹性网络倾向于将相关变量同时纳入或排除。但其系数估计存在偏差,且不提供变量选择的不确定性量化,一类错误控制较差。
- •
广义可加模型(GAM):使用平滑函数fj非参数地拟合每个暴露与响应的关系,能灵活处理非线性。可通过假设检验或变量选择(如LASSO惩罚)识别重要组分。但在预测变量高度相关时检验效能会下降,且难以处理高阶交互作用。
新型复杂化学混合物方法
- •
贝叶斯核机器回归(BKMR):为暴露-反应函数h设置高斯过程(GP)先验,通过核函数度量不同暴露组合下h值的相关性,能灵活捕捉非线性和交互效应。通过变量选择(组分水平或分层水平)确定重要暴露,后验包含概率(PIP)反映重要性。但其PIP对先验设定敏感,且缺乏明确的显著性判断标准。结果解释高度依赖对后验分布的图形化探索。
- •
加权分位数和回归(WQS):将连续暴露量化为分位数,构建加权分位数和(指数)并回归响应,检验指数系数的显著性来评估混合物整体效应。其假设所有暴露对结局的影响方向一致(方向同质性),且需将样本分为训练集(估计权重)和验证集(进行检验),这会损失效能。
- •
分位数g计算(QGC):同样使用分位数化的暴露,但直接拟合多元线性模型ηi= β0+ Σj=1pβjqij。通过估计所有暴露同时增加一个分位数水平对结局的期望效应ψ = Σβj来评估混合物整体效应。它也受方向同质性假设影响,且其输出的权重可能产生误导。
模拟研究
研究通过模拟比较了各方法在控制一类错误、识别重要组分、检验混合物整体关联及预测精度方面的表现。模拟设置了不同样本量(n=100, 400)、暴露变量数(p=5, 10, 20)、暴露间相关性(ρ=0, 0.5, 0.9)和真实的暴露-反应函数(线性、非线性、线性交互、正弦交互、效应相反、所有暴露均相关)。评估指标包括一类错误率、检验效能和预测均方误差(MSE)。
结果
- •
组分识别:在暴露相关性中等、数量不多、且暴露-反应函数非高度复杂(如正弦交互)的情况下,GLM和GAM(使用假设检验)在控制一类错误的同时,展现了优于或相当于BKMR(使用PIP cutoff=0.95)的效能。而弹性网络、GAM(使用变量选择)和BKMR(使用PIP cutoff=0.50)的一类错误率则显著高于名义水平(0.05)。仅在最复杂的正弦交互场景中,BKMR的效能才明显优于参数化方法。
- •
整体混合物检验:当暴露数量多或相关性高时,专注于整体效应的QGC、WQS和PCR方法,相较于GLM的F检验(消耗更多自由度),往往表现出更高的效能。然而,当混合物中不同组分的效应方向相反时,QGC、WQS和BKMR的对比检验效能会严重下降。WQS因样本分割,其效能通常低于QGC。GAM使用Bonferroni校正进行整体检验时,在暴露相关性低时表现尚可,但在相关性高时效能不佳,不过在效应相反场景中其表现优于多数新型方法。BKMR的分层变量选择在其默认先验设置下,即使无真实关联,组水平PIP也常高于0.50,校准不佳。
- •
预测精度:当暴露与响应的关联较强时,正确设定的模型(如线性场景下的GLM,非线性场景下的GAM,复杂交互场景下的BKMR)预测MSE最低。当关联较弱时,具有变量选择功能的弹性网络和BKMR因能剔除噪声变量而表现更好。
讨论与建议
模拟结果表明,在暴露数量中等、相关性中等、且暴露-反应关系相对简单的情况下,通用方法(如GLM、GAM)在假设检验方面优于新型混合物方法。因此,新型方法不应作为默认选择。方法选择应基于数据特征和研究目标。
- •
高相关性/多暴露:考虑QGC、WQS、PCR。
- •
中等相关性/中等数量暴露:GLM、GAM是良好选择。
- •
非线性暴露-反应关系:GAM能灵活处理。
- •
交互性暴露-反应关系:BKMR具有优势。
- •
结果可解释性:GLM和QGC较好。
- •
暴露效应相反:GLM、GAM更合适。
- •
样本量小:除BKMR外的大多数方法均可考虑。
研究者需注意各方法的局限性。WQS和QGC需对连续暴露进行分位数化,可能损失信息并引入任意性。BKMR的PIP解释需谨慎,其临界值选择缺乏明确指南,且对先验敏感。GLM需要正确设定模型形式,PCR可能遗漏重要组分,GAM缺乏良好的整体关联检验方法。在实际分析中,可结合使用GLM(提供可解释结果)和更灵活的模型(如GAM或BKMR)进行稳健性检验。最终方法选择应权衡统计性能、假设满足情况、计算复杂性和结果可解释性。