编辑推荐:
在组学研究中,实验设计诱导的变异会干扰共表达分析。研究人员开展 MASCARA 框架研究,结合 ANOVA 同步成分分析和偏最小二乘回归(PLS)去除实验变异,挖掘组内变异中的多元关系。结果显示其能有效检测共表达特征,为通路发现提供新方法。
在生命科学领域的组学研究中,利用组学测量发现感兴趣通路的新组成部分时,实验设计往往会诱导通路变异,但也会带来主导性变异,干扰通路发现。同时,环境条件的微小变化会导致生物样本中基因表达或代谢物浓度出现微小的协调性差异,这些系统差异通常未被直接考虑,但可能有助于改善共表达特征的检测。然而,传统的共表达分析方法如差异表达分析(DE)、加权基因相关网络分析(WGCNA)、偏最小二乘回归(PLS)等,难以有效区分实验诱导的组间变异和组内变异,导致真实共表达模式的检测受到影响。因此,如何从复杂的实验数据中分离出有意义的共表达信号,成为该领域亟待解决的问题。
为了应对这一挑战,来自国外研究机构的研究人员开展了相关研究,旨在开发一种能够有效去除实验诱导变异、挖掘组内变异中多元关系的共表达分析方法。他们提出了一种名为 “MASCARA” 的新框架,该框架结合了 ANOVA 同步成分分析(ASCA)和偏最小二乘回归(PLS),通过去除实验设计引起的方差,重点研究非设计方差中的多元关系。相关研究成果发表在《Computational and Structural Biotechnology Reports》上。
研究人员主要采用了以下关键技术方法:首先,使用 ASCA 对数据进行方差分解,分离出组间变异和组内变异;然后,利用 PLS2 对残差矩阵进行分析,通过目标投影(TP)对特征进行排序,以检测与已知诱饵(baits)共表达的特征。研究中使用了模拟数据集和真实数据集(包括水稻根系转录组数据集和拟南芥代谢组数据集)进行验证,通过对数几何平均秩(log?GMR)等指标评估方法性能。
模拟研究
模拟 1:联合效应大小和差异特征数量的影响
在存在主导性组间变异和不同数量差异非通路特征(URP)的模拟数据中,MASCARA 的性能不受差异 URP 特征数量和联合效应大小的影响,而传统方法(如相关性分析、WGCNA、ASCA 和 PLS)的性能则因引入更多差异 URP 特征而下降。这表明 MASCARA 能够有效抵抗组间变异的干扰。
模拟 2:重复次数的影响
在 2340 个不同方差比例和重复次数的模拟数据中,MASCARA 在大多数情况下优于其他方法,尤其是在组间变异较大、随机噪声较低时。随着重复次数增加,MASCARA 能更稳定地检测到目标特征,而其他方法易受假阳性干扰。
真实数据验证
LCMS 代谢组数据
在拟南芥温度 / 光照研究的 LCMS 数据中,MASCARA 通过分析组内和总协方差,识别出受环境因素(如干旱胁迫)影响的代谢物,如 4 - 羟基苯甲酸、二十二烷酸、二十四烷酸和棉子糖,这些代谢物的组内协方差较高,与传统方法相比,MASCARA 能更精准地捕捉到组内变异中的共表达关系。
RNAseq 转录组数据
在水稻独脚金内酯(SL)通路的 RNAseq 数据中,结合 KEGG 网络分析,MASCARA 检测到传统方法遗漏的通路节点,主要涉及次生代谢过程、氧化还原信号、多胺代谢、ABA 调节和细胞壁局部重塑等,表明其在发现新转录本和通路成员方面的有效性。
结论与讨论
MASCARA 通过方差分解和多元分析,有效分离了实验诱导的组间变异和组内的结构化变异,为共表达分析提供了一种更敏感的方法。其核心优势在于利用组内变异中由环境因素引起的系统差异,克服了传统方法受组间变异主导的局限性。该方法在模拟和真实数据中均表现出对真实共表达特征的高效检测能力,为通路发现、功能注释和复杂生物系统分析提供了新工具。此外,MASCARA 对样本重复次数的要求较低,适用于多种组学数据,具有广泛的应用前景。研究结果表明,合理利用组内变异中的结构化信息,能够显著提升共表达分析的准确性,为深入理解生物通路的调控机制奠定了基础。