可折叠核机器回归在暴露组学分析中的应用:一种兼顾非线性与交互作用的灵活建模框架

【字体: 时间:2025年09月18日 来源:Statistics in Medicine 1.8

编辑推荐:

  本文提出了一种创新的可折叠核机器回归(CKMR)框架,用于解决暴露组学研究中高维环境混合物分析的挑战。该方法通过自适应投影技术将非参数暴露响应曲面分解为加性效应和非加性交互作用,并采用分层变量选择先验实现模型简化(可折叠至广义加模型GAM)。在仿真和实际数据(HELIX队列)中验证显示,CKMR在保持贝叶斯核机器回归(BKMR)灵活性的同时,显著提高了无交互作用时的统计效能,并为非加性交互作用提供了可解释的统计推断。

  

1 引言

暴露组学分析旨在全面评估多种环境暴露对健康的复杂影响,但传统方法如单污染物模型或低维混合物分析存在局限性。贝叶斯核机器回归(BKMR)虽能灵活捕捉非线性和非加性效应,但在高维暴露场景中存在统计效能低、解释困难的问题。本文提出的可折叠核机器回归(CKMR)框架通过分离加性和非加性效应,实现了模型灵活性与解释性的平衡,为暴露组学研究提供了新的解决方案。

2 背景

2.1 BKMR方法

BKMR通过核函数(如高斯核)刻画暴露与健康结局间的非参数关系,其混合效应模型表示为:

yi = h(xi) + ziTα + εi,

其中h(·)通过核矩阵K定义,允许暴露间复杂交互作用。但该方法需手动检查大量交互图(p(p-1)/2个),且当无交互作用时效率较低。

2.2 MixSelect方法

Ferrari & Dunson提出的MixSelect在线性主效应和两两交互项基础上增加核成分,通过投影矩阵H减少混淆,但未能完全解决可识别性问题,且核函数仍可能过度灵活。

2.3 多指标模型(BMIM)

BMIM利用暴露的分组结构构建线性综合指标(如Eij = xijTθj),降低核函数维度。虽提高了解释性,但未解决非线性与交互作用的耦合问题,且权重估计需约束条件(如θjTθj = 1)。

3 提出的方法

3.1 可折叠核机器回归(CKMR)

CKMR模型结构为:

yi = Σj=1p fj(xij) + h*(xi) + ziTα + εi,

其中fj(·)通过B样条基函数刻画单暴露非线性效应,h*(·)捕捉非加性交互作用。通过投影矩阵P = I - B(BTB)-1BT确保可识别性,将核空间分解为加性空间及其正交补空间(交互作用)。

3.2 变量选择与分层约束

采用钉螺先验实现分层变量选择:

  • 主效应选择:βj ~ γj g(βj) + (1-γj0

  • 交互作用选择:ρj ~ γjρ Gamma(aρ, bρ) + (1-γjρ0

    其中γjρ ~ γj Bernoulli(πρ) + (1-γj0确保只有入选主效应的暴露才可能参与交互。该结构提供三类推断:无效应(γj=0)、仅加性效应(γj=1, γjρ=0)和非加性效应(γj=1, γjρ=1)。

3.3 自适应投影

传统投影矩阵P因设计矩阵B的列空间过大而导致交互作用估计偏差。CKMR采用自适应投影Pγ = I - Bγ(BγTBγ)-1BγT,仅保留入选主效应对应的基函数列,避免多重共线性问题。

3.4 可折叠多指标模型(CMIM)

将CKMR扩展至多指标场景:

yi = Σj=1M fj(Eij) + h*(Ei) + ziTα + εi,

其中Eij = xijTθj为第j组暴露的综合指标。权重θj采用von Mises-Fisher先验处理方向约束,并通过基函数变换Ψj实现计算简化。

3.5 扩展应用

方法可扩展至时序暴露数据(如分布式滞后模型)和先验信息整合(如毒理当量因子约束权重),增强了模型的适用性。

4 仿真研究

4.1 设置

在R=500次仿真中比较CKMR与BKMR、NLInter、ssGAM等方法。设置包括:

  • 场景A(无交互):μA包含cos、sin、t密度函数等非线性主效应

  • 场景B(有交互):μB = μA + cos(2x1)x52

  • 多指标场景C/D:构建两类综合指标(E1=3x1+2x11+...+0x13, E2=x2+x14+...+x16)

4.2 结果

  • 无交互时:CKMR与ssGAM性能相近(MSE=0.38 vs 0.35),显著优于BKMR(MSE=0.67)

  • 有交互时:CKMR保持最低MSE(0.49)和最优覆盖率(95%),而ssGAM因忽略交互导致覆盖率骤降(84%)

  • 多指标场景:CMIM较BMIM误差降低30%(MSE=0.56 vs 0.73)

  • 变量选择:CKMR对交互作用检测效能达92%(NLInter仅22%),且自适应投影显著提高交互作用识别能力

5 案例研究:HELIX项目

5.1 数据

分析1301名儿童BMI与65种 postnatal暴露的关系,暴露分为13类(空气污染、金属、有机氯等)。调整协变量包括母亲年龄、BMI、教育水平等。

5.2 结果

  • BMIM初步筛选显示金属、气象变量、有机氯类有显著效应(PIP>0.8)

  • CMIM进一步收缩:仅金属(PIP=1.0)和有机氯(PIP=1.0)保留显著效应,且无交互作用证据(交互PIP≈0)

  • 指数曲线:金属呈线性负相关,有机氯呈非线性关联(低剂量时BMI降幅显著)

  • 权重解析:

    • 金属中铯(Cs,权重-0.52)和铜(Cu,-0.49)主导负向关联,钼(Mo,0.39)和铅(Pb,0.26)呈反向效应

    • 有机氯中六氯苯(HCB,0.89)为主要贡献因子

  • 敏感性分析(各金属单独建模)结论一致,验证了结果的稳健性

6 讨论

CKMR/CMIM框架通过自适应投影和分层变量选择,有效解决了高维暴露分析中的灵活性-可解释性权衡问题。其方法学优势包括:

  1. 1.

    在无交互时接近GAM效率,有交互时保持BKMR灵活性

  2. 2.

    提供明确的交互作用统计推断(通过γjρ

  3. 3.

    支持多指标整合和先验信息融入

    该框架为暴露组学研究的复杂效应解析提供了标准化工具,未来可扩展至生存数据、分类型结局等场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号