基于稳健多元回归与错误发现率控制的微生物组特征选择方法及其在疾病标志物识别中的应用

【字体: 时间:2025年09月18日 来源:Bioinformatics 5.4

编辑推荐:

  为解决微生物组数据存在的高维性、稀疏性、组成性及异常值干扰等问题,研究人员开发了alrRMLC-RobMRKF-Derand方法,通过稳健多元回归结合去随机化敲除过滤技术,在控制错误发现率(FDR)的同时显著提升特征选择的稳定性与可重复性,为疾病相关微生物标志物的精准识别提供新范式。

  

肠道微生物组与宿主健康密切相关,其群落结构变化常作为疾病状态的生物标志物。然而,微生物组数据分析面临四大核心挑战:数据具有组成性(即各菌群相对丰度之和为常数)、高维度(菌群数量远大于样本量)、稀疏性(仅有少量菌群与表型相关)以及异常值的干扰。传统分析方法往往忽略这些特性,导致假阳性发现率高、结果稳定性差,难以在临床研究中实现可靠的特征筛选。

为解决这些问题,来自意大利米兰比可卡大学、西班牙维克大学等机构的研究团队在《Bioinformatics》发表了题为"Robust multivariate regression controlling false discoveries for microbiome data"的研究论文。该研究开发了一种融合稳健统计与错误发现率控制的新型计算框架,能够同时处理组成型预测变量、多元响应变量和异常值污染,显著提升了微生物组标志物发现的准确性与可重复性。

研究方法上,作者首先对微生物组成数据施加加性对数比变换(additive logratio transformation, alr)以消除组成性约束,并通过稳健关联测试选择参考菌群(如研究中选用的Lactobacillus)。核心算法alrRMLC(adaptive log-ratio Robust Multivariate Lasso with Covariance estimation)采用Tukey双权重损失函数抵抗异常值,联合估计回归系数矩阵和误差协方差矩阵。进一步结合去随机化敲除过滤(RobMRKF-Derand)技术,通过多次生成敲除变量并聚合e值(e-values),在控制FDR的同时增强结果稳定性。研究利用欧洲女性糖尿病研究队列(n=145)的肠道菌群数据(176个属→100个高频属)和5项代谢指标(BMI、甘油三酯、HDL、C-肽、hs-CRP)进行验证。

2. Methods

2.1. 预处理与组成性数据处理

通过alr转换将相对丰度数据转化为连续变量,以Lactobacillus为参考菌群,构建99维特征矩阵。参考菌群选择基于其与响应变量的最小关联性,确保模型解释合理性。

2.2. 稳健多元回归与协方差估计

提出alrRMLC目标函数,引入自适应权重和Tukey双权重损失函数,通过交替优化回归系数矩阵B和精度矩阵Ω,抵抗异常值干扰。算法采用加速近端梯度法,在保持计算效率的同时实现稳健估计。

2.3. 多元响应敲除过滤

扩展模型-X敲除框架(Model-X Knockoff)至多元响应场景,通过构造 knockoff 变量计算特征重要性统计量Wj,采用 knockoff+ 阈值控制FDR。该方法可检验各特征是否与至少一个响应变量相关。

2.4. 去随机化敲除程序

通过多次生成敲除副本(M=50)并计算平均e值,应用e-BH程序聚合结果,显著降低单次运行的随机性,提升发现结果的稳定性与可重复性。

3. Simulation

模拟研究显示,在无异常值场景(Scenario 1)下,稳健方法与经典方法性能相当;但当响应变量(Scenario 2)或协同异常值(Scenario 3)存在时,RobMRKF-Derand能严格将FDR控制在名义水平(α=0.2)以下,而经典方法FDR最高漂移至75%。虽然稳健方法在部分场景中灵敏度略低,但权衡了错误控制与发现可靠性。

4. Real Data Application

应用研究揭示了7个与代谢健康相关的菌属:Phascolarctobacterium、Butyrivibrio和Barnesiella与健康指标HDL正相关,而与BMI、甘油三酯等负相关;Lachnospiraceae科未分类属、Tractidigestivibacter和Coprobacillus则呈现相反模式。这些发现与既往研究一致,如短链脂肪酸产生菌的保护作用与Lachnospiraceae在代谢疾病中的矛盾角色,证明了方法在真实数据中的生物学解释能力。

5. Conclusions

该研究提出的alrRMLC-RobMRKF-Derand框架有效解决了微生物组数据分析中的四大挑战,其核心贡献在于:①通过稳健损失函数与协方差估计抵抗异常值;②利用敲除技术与e值聚合实现可重复的FDR控制;③alr变换兼顾组成性约束与结果可解释性。该方法不仅适用于微生物组研究,还可扩展至其他高维组成型数据领域(如代谢组学、宏转录组等),为复杂生物标志物的发现提供可靠计算工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号