
-
生物通官微
陪你抓住生命科技
跳动的脉搏
高维多组学整合分析新方法:基于惩罚估计方程的微生物组组成-组成回归模型研究
【字体: 大 中 小 】 时间:2025年07月13日 来源:Bioinformatics 4.4
编辑推荐:
针对高通量测序数据中组成型数据(compositional data)分析难题,研究人员开发了COC(Composition-On-Composition)回归方法,通过惩罚估计方程处理高维零膨胀数据,解决了传统对数比变换方法的局限性。该方法在微生物组关联分析中展现出优越的估计和预测性能,为多组学整合研究提供了新工具。
在当今生命科学研究中,高通量测序技术(NGS)产生的数据本质上是组成型的(compositional),只能提供相对丰度信息。这类数据广泛存在于16S rRNA微生物组调查、单细胞RNA测序等研究中。然而,当响应变量和预测变量都是组成型数据时,特别是在高维情况下,现有的分析工具非常有限。更棘手的是,测序数据中普遍存在的零值问题,使得传统的基于对数比变换(log-ratio transformation)的方法难以直接应用。
针对这一挑战,来自乔治梅森大学(George Mason University)的研究团队开发了一种创新的组成-组成回归(COC)分析方法。该方法不需要对数比变换,能够直接处理含有零值的高维多组学数据。相关研究成果发表在生物信息学领域权威期刊《Bioinformatics》上。
研究人员采用的关键技术包括:1)基于Kullback-Leibler散度(KLD)的估计方程方法;2)针对高维数据设计的L2,1范数惩罚函数;3)基于自助法的假设检验算法;4)适应性预测区域构建方法。研究使用了来自COMBO研究的90例肠道微生物组数据(包含40个细菌属和7个真菌类)进行方法验证。
研究提出了直接回归框架E(y|x)=Bx,其中B矩阵需满足非负性和列和为1的约束条件。这种马尔可夫矩阵特性使模型能够自然地处理组成型数据,同时允许零值存在。与传统的回归系数解释不同,COC模型中B·j-B·j'反映了预测变量对(xj,xj')对响应变量的联合效应。
为解决高维问题,研究创新性地提出了基于列中心化矩阵B?的L2,1惩罚项,通过将多数B列收缩至零元素(1/q,...,1/q)T来实现稀疏性。目标函数结合了KLD和惩罚项,在保持模型可解释性的同时提高了估计精度。
研究开发了基于自助法的假设检验算法(Algorithm 1)来评估B=B0的零假设。此外,采用适应性预测框架构建预测区域,通过分割一致性方法计算cutoff值c,形成预测区域C1-αsplit={ycand∈Sq:KLD(ycand,?)≤c}。
在模拟实验中,COC在估计精度(表1)和预测性能(表2)上均显著优于直接回归方法(DR)。特别是在同质组成型预测变量和稀疏信号场景下,COC的Frobenius范数误差仅为DR的1/30。即使在高维(p,q)=(100,100)和密集信号情况下,COC仍保持优势。
应用COC分析51对PPI-储袋黏膜微生物组数据,结果显示COC产生了更简约的模型(图1)。对角线上显著的非零系数表明两个部位的微生物组成高度一致,这与原始研究结论相符。COC的平均预测KLD(0.604)显著优于DR(0.658)。
在COMBO数据集分析中,COC识别出Prevotella、Bacteroides和Lachnospiraceae I.S.三个细菌属与所有7个真菌类显著相关(图2)。Prevotella/Bacteroides比例对真菌群落结构的影响与既往研究一致。图3展示的预测区域可视化证实了COC在揭示微生物共现模式方面的价值。
这项研究的意义在于:1)首次提出了可处理高维零膨胀组成型数据的COC回归框架;2)开发的惩罚函数兼具生物学合理性和统计稳健性;3)为微生物组互作研究提供了新的分析工具。尽管COC不具备传统组成型数据分析中的子组成一致性,但在高维情况下这一局限性被弱化。该方法在微生物组关联分析中展现出的优越性能,预示着其在其他组学数据整合研究中的广泛应用前景。
生物通微信公众号
知名企业招聘