编辑推荐:
为解决高维线性结构方程模型中因果中介效应大规模假设检验及控制错误发现率(FDR)的问题,研究人员开展适应性亚无效检验(AtST)研究。发现 AtST 在渐近意义下可维持显著性水平、易计算 p 值,还能通过数据驱动选择 FDR 控制参数,为相关领域提供新方法。
在生命科学与医学研究中,高维数据背景下的因果中介效应分析是热点也是难点。例如在全基因组表观研究里,像探索 miR - 223 S 通过基因表达谱对癌症预后的中介作用、DNA 甲基化在吸烟与肺功能关系中的中介角色等,都需要精准的检验方法。然而传统方法在处理高维中介向量时存在局限,尤其面对不同亚无效假设(H
k01、H
k02、H
k03)时,检验统计量的极限分布不一致,导致检验保守性强,且高维情况下计算成本高、FDR 控制研究不足。为突破这些瓶颈,中国研究人员开展了结构方程模型中介效应的适应性亚无效检验相关研究,成果发表在《Computational Statistics 》。该研究为高维因果中介效应的准确检验及 FDR 控制提供了新路径,具有重要的科学意义与应用价值。
研究人员主要采用的关键技术方法包括:构建线性结构方程模型,包含结果变量 Yik和中介变量 Mki的方程,考虑协变量 X?的影响;运用部分惩罚回归方法,推导部分惩罚最小二乘估计量的渐近线性表示,允许协变量向量维度 q 远大于样本量 n 的稀疏结构;采用数据驱动方法,基于变点检测技术选择 Storey estimator 的调参;通过模拟实验和真实数据分析验证方法有效性。样本队列方面未在原文明确提及。
估计与极限行为
研究了 βk和 γk的估计,通过构建模型和运用部分惩罚回归,在参数中非零元素数量满足 o (n1/3) 等条件下,推导其渐近线性表示,为后续检验奠定基础。
适应性检验统计量
提出 AtST 统计量,其在所有互斥亚无效假设下,检验统计量的弱极限均服从自由度为 1 的卡方分布。通过相关公式计算统计量,该特性使显著性水平得以维持,p 值计算简便,无需亚无效假设先验信息或重采样技术。
FDR 控制程序
利用 AtST 在所有亚无效假设下零分布的共性,应用经典 Storey 方法控制 FDR,还建议采用基于变点检测技术的数据驱动方法选择 Storey estimator 调参,以优化 FDR 控制效果。
数值研究
采用 SCAD - styled 惩罚,调参 a 设为 3.7,λ 通过 BIC criterion 从大于 n-1/2的值中选择,利用 R 包 AtST 进行模拟。结果表明 AtST 在有限样本下表现良好,在不同模型结构中稳健,优于一些现有方法。
真实数据分析
以 DNA 甲基化在童年创伤和皮质醇应激反应间的中介分析为例,验证 AtST 在实际数据中的有效性,为相关领域研究提供方法支撑。
结论与讨论
研究提出的 AtST 解决了传统方法因不同亚无效假设零分布差异导致的保守性问题,具有统一的卡方弱极限,便于利用 Storey 等方法控制 FDR。理论上扩展了参数估计方法,允许高维协变量向量更低稀疏水平,为 FDR 控制提供坚实基础。模拟和真实数据表明其有效性和稳健性。该方法为高维中介效应分析提供了高效工具,在基因组学、表观遗传学等领域具有广泛应用前景,有助于推动复杂生物医学数据中因果关系的深入挖掘,为相关疾病机制研究和靶点发现提供新视角。