环境流行病学中化学混合物新型分析方法的适用性评估：传统与前沿统计模型的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Environmental Epidemiology》：When are novel methods for analyzing complex chemical mixtures in epidemiology beneficial?

【字体：大中小】 时间：2026年01月16日 来源：Environmental Epidemiology 3.8

编辑推荐：

　　这篇综述通过系统的模拟研究，首次将广义线性模型（GLM）等通用方法与贝叶斯核机器回归（BKMR）等新型化学混合物分析方法进行对比。文章强调了一类错误率控制的重要性，并指出在中等相关性、无复杂交互作用或暴露效应相反时，传统方法（如GLM、GAM）优于新型方法；而在高交互作用或高相关性暴露下，新型方法（如BKMR、QGC）才显示出优势。研究为不同数据特征下的方法选择提供了清晰的经验性指导。

统计背景

观察性研究旨在估计化学混合物暴露与健康结局之间的关联，其核心是估计暴露-反应函数h。该函数通过连接函数g与响应变量的期望值关联，通用模型形式为η_i= g(μ_i) = h(a_i1, …, a_ip) + x_i^Tβ_X。常见的连接函数包括用于连续数据的恒等连接、用于二分类数据的Logit连接以及用于计数数据的对数连接。本研究为简化起见，未在模型中纳入协变量。

化学混合物的统计方法

分析方法的目标可分为三类：识别混合物中与响应相关的组分、检验混合物整体与响应的关联性、以及进行新数据预测。方法可分为通用方法和新型方法。

通用方法

•
广义线性模型（GLM）：假设在连接函数尺度上，响应与预测变量呈线性关系。非线性或交互作用需用户显式指定。通过F检验或χ²检验可评估混合物整体关联。其系数解释直观，但依赖严格的参数假设。
•
主成分回归（PCR）：先对暴露变量进行主成分分析（PCA）降维，再将响应回归到主成分上。主成分正交性有助于处理共线性，通过F检验评估混合物整体关联。但降维过程忽略与结局的关系，可能遗漏重要组分，且主成分的解释依赖专业知识。
•
LASSO/弹性网络回归（ENET）：通过L1（LASSO）或L1与L2（弹性网络）惩罚项进行变量选择，适用于高维情况。弹性网络倾向于将相关变量同时纳入或排除。但其系数估计存在偏差，且不提供变量选择的不确定性量化，一类错误控制较差。
•
广义可加模型（GAM）：使用平滑函数f_j非参数地拟合每个暴露与响应的关系，能灵活处理非线性。可通过假设检验或变量选择（如LASSO惩罚）识别重要组分。但在预测变量高度相关时检验效能会下降，且难以处理高阶交互作用。

新型复杂化学混合物方法

•
贝叶斯核机器回归（BKMR）：为暴露-反应函数h设置高斯过程（GP）先验，通过核函数度量不同暴露组合下h值的相关性，能灵活捕捉非线性和交互效应。通过变量选择（组分水平或分层水平）确定重要暴露，后验包含概率（PIP）反映重要性。但其PIP对先验设定敏感，且缺乏明确的显著性判断标准。结果解释高度依赖对后验分布的图形化探索。
•
加权分位数和回归（WQS）：将连续暴露量化为分位数，构建加权分位数和（指数）并回归响应，检验指数系数的显著性来评估混合物整体效应。其假设所有暴露对结局的影响方向一致（方向同质性），且需将样本分为训练集（估计权重）和验证集（进行检验），这会损失效能。
•
分位数g计算（QGC）：同样使用分位数化的暴露，但直接拟合多元线性模型η_i= β₀+ Σ_j=1^pβ_jq_ij。通过估计所有暴露同时增加一个分位数水平对结局的期望效应ψ = Σβ_j来评估混合物整体效应。它也受方向同质性假设影响，且其输出的权重可能产生误导。

模拟研究

研究通过模拟比较了各方法在控制一类错误、识别重要组分、检验混合物整体关联及预测精度方面的表现。模拟设置了不同样本量（n=100, 400）、暴露变量数（p=5, 10, 20）、暴露间相关性（ρ=0, 0.5, 0.9）和真实的暴露-反应函数（线性、非线性、线性交互、正弦交互、效应相反、所有暴露均相关）。评估指标包括一类错误率、检验效能和预测均方误差（MSE）。

结果

•
组分识别：在暴露相关性中等、数量不多、且暴露-反应函数非高度复杂（如正弦交互）的情况下，GLM和GAM（使用假设检验）在控制一类错误的同时，展现了优于或相当于BKMR（使用PIP cutoff=0.95）的效能。而弹性网络、GAM（使用变量选择）和BKMR（使用PIP cutoff=0.50）的一类错误率则显著高于名义水平（0.05）。仅在最复杂的正弦交互场景中，BKMR的效能才明显优于参数化方法。
•
整体混合物检验：当暴露数量多或相关性高时，专注于整体效应的QGC、WQS和PCR方法，相较于GLM的F检验（消耗更多自由度），往往表现出更高的效能。然而，当混合物中不同组分的效应方向相反时，QGC、WQS和BKMR的对比检验效能会严重下降。WQS因样本分割，其效能通常低于QGC。GAM使用Bonferroni校正进行整体检验时，在暴露相关性低时表现尚可，但在相关性高时效能不佳，不过在效应相反场景中其表现优于多数新型方法。BKMR的分层变量选择在其默认先验设置下，即使无真实关联，组水平PIP也常高于0.50，校准不佳。
•
预测精度：当暴露与响应的关联较强时，正确设定的模型（如线性场景下的GLM，非线性场景下的GAM，复杂交互场景下的BKMR）预测MSE最低。当关联较弱时，具有变量选择功能的弹性网络和BKMR因能剔除噪声变量而表现更好。

讨论与建议

模拟结果表明，在暴露数量中等、相关性中等、且暴露-反应关系相对简单的情况下，通用方法（如GLM、GAM）在假设检验方面优于新型混合物方法。因此，新型方法不应作为默认选择。方法选择应基于数据特征和研究目标。

•
高相关性/多暴露：考虑QGC、WQS、PCR。
•
中等相关性/中等数量暴露：GLM、GAM是良好选择。
•
非线性暴露-反应关系：GAM能灵活处理。
•
交互性暴露-反应关系：BKMR具有优势。
•
结果可解释性：GLM和QGC较好。
•
暴露效应相反：GLM、GAM更合适。
•
样本量小：除BKMR外的大多数方法均可考虑。

研究者需注意各方法的局限性。WQS和QGC需对连续暴露进行分位数化，可能损失信息并引入任意性。BKMR的PIP解释需谨慎，其临界值选择缺乏明确指南，且对先验敏感。GLM需要正确设定模型形式，PCR可能遗漏重要组分，GAM缺乏良好的整体关联检验方法。在实际分析中，可结合使用GLM（提供可解释结果）和更灵活的模型（如GAM或BKMR）进行稳健性检验。最终方法选择应权衡统计性能、假设满足情况、计算复杂性和结果可解释性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号