编辑推荐:
在基因或蛋白表达数据研究中,现有通路分析方法难以应对复杂研究设计。研究人员开发通路分析新方法 PAL,经模拟数据及 1 型糖尿病(T1D)相关纵向数据集验证,可识别重要通路,为 T1D 研究提供有力工具。
在生命科学研究的广阔领域中,基因和蛋白表达数据的通路分析就像是一把探索生命奥秘的钥匙。然而,这把 “钥匙” 目前却遇到了一些难题。现有的多数通路分析工具,就像是为简单的 “两点一线” 式研究设计的,只能处理两个样本组的简单对照研究,对于复杂的研究设计,它们就显得 “力不从心” 了。比如在一些长期追踪的纵向研究中,由于研究周期长,需要纳入健康对照组来区分正常衰老和疾病发展的影响,但现有的方法却无法处理对照组中研究变量未定义的情况,这就好比在拼图游戏中,少了关键的几块拼图,让整个研究难以完整呈现。
在这样的背景下,来自芬兰图尔库生物科学中心(Turku Bioscience Centre)、图尔库大学(University of Turku)和奥博学术大学(?bo Akademi University)等机构的研究人员,决心攻克这一难题。他们开展了关于纵向数据通路分析方法(Pathway Analysis of Longitudinal data,PAL)的研究,试图为复杂研究设计找到一种有效的通路分析方法。
研究人员经过不懈努力,得出了令人振奋的成果。他们开发的 PAL 方法,在模拟数据和三个与 1 型糖尿病(T1D)早期发展相关的纵向数据集分析中表现出色。该方法不仅能准确识别与研究变量显著相关的通路,而且在处理不同类型的数据(转录组学和蛋白质组学数据)时都展现出了强大的能力。这一成果意义非凡,它为研究 T1D 等复杂疾病的发病机制提供了新的视角和有力工具,就像是为科研人员在黑暗中点亮了一盏明灯,指引他们更深入地探索疾病的奥秘。这项研究成果发表在了《Scientific Reports》杂志上。
为开展此项研究,研究人员运用了多种关键技术方法。首先,在数据处理方面,他们使用了线性混合效应模型(linear mixed effects models)对基因 / 蛋白质水平的混杂变量进行调整,以去除混杂因素的影响。接着,采用 Pathway Analysis for Sample-level Information(PASI)方法计算通路分数,该方法结合了通路结构信息,能更准确地反映通路活性。最后,通过基于置换的程序进行通路水平的显著性检验,以此确定每个通路与研究变量的关联程度。研究使用的样本队列来自 DAISY、Diabimmune 和 BabyDiet 三个公开数据集,分别包含纵向蛋白质组学或转录组学数据。
下面来详细看看研究结果:
- 模拟数据表现:在模拟数据实验中,研究人员构建了包含 100 条通路的模拟数据,其中部分通路具有年龄效应或疾病效应。结果显示,PAL 能够准确估计主要变量(疾病效应)的系数,且该估计对噪声不敏感。通过错误发现率(False Discovery Rate,FDR)估计,具有真实疾病效应的通路被排在前列,其准确性、敏感性和特异性均高于 80%。不过,研究也发现 PAL 估计的 FDR 水平略显宽松,会导致一些假阳性结果。在样本量影响测试中,研究发现当样本量达到 20 及以上时,PAL 能保持良好性能;样本量小于 20 时,其敏感性会下降,但特异性、精确性和准确性仍保持在一定水平。与其他方法(TcGSA 和 GSEA)相比,PAL 在控制 FDR 和识别真正相关通路方面表现更优。
- 案例研究 1:血浆蛋白质组学数据:将 PAL 应用于 DAISY 血浆蛋白质组学数据,研究人员发现了 9 条与血清转化显著相关的通路(FDR <0.05),其中 “苯丙氨酸、酪氨酸和色氨酸生物合成” 通路与血清转化的时间效应尤为明显。在比较糖尿病前期和健康供体时,PAL 识别出 88 条显著通路,其中部分通路在健康对照组和糖尿病前期组中表现出不同的活性。与原始研究相比,PAL 能够从复杂数据中发现更多相关通路,而原始研究使用传统方法未能识别出显著通路。
- 案例研究 2:幼儿转录组学时间序列数据:对 Diabimmune 数据进行分析,PAL 在 PBMC 数据中仅发现 1 条与血清转化显著相关的通路 “溶酶体”。在比较糖尿病前期和健康对照组时,PAL 在不同细胞类型(PBMC、CD4+ T 细胞和 CD8+ T 细胞)中识别出不同数量的显著通路,且这些通路在不同细胞类型中的变化趋势各异。在 CD8+ T 细胞中,一些显著通路与 β 细胞破坏、细胞内稳态和组织 / 器官水平稳态相关,还发现了与心肌病相关的通路,这一结果与 T1D 患者心肌病风险增加的文献报道相符,但与早期疾病的关联令人意外。与原始研究相比,PAL 在 CD8+ T 细胞中检测到的通路数量最多,且部分通路与原始研究通过 DAVID 工具检测到的结果重叠。
- 案例研究 3:长随访时间的转录组学纵向数据:分析 BabyDiet 数据时,PAL 检测到 7 条与血清转化显著相关的通路,这些通路多与不同生物分子的代谢有关。在比较糖尿病前期和健康对照组时,PAL 也识别出 7 条活性改变的通路,同样多与生物分子代谢相关。时间与一些基因组和生物分子代谢相关通路显著相关,部分通路的发现得到了先前研究的支持。
在研究结论和讨论部分,研究人员指出,PAL 作为一种新型通路分析方法,在分析具有复杂研究设计的纵向数据方面表现出显著优势。它能够从具有挑战性的 T1D 早期发展数据集中识别出相关通路,这些通路在原始研究中未被发现,但在文献中得到了充分支持,尤其是与不同生物分子代谢相关的通路。尽管 PAL 在小样本量下仍有可靠表现,但样本量低于 20 时,其敏感性和精确性会有所下降。此外,PAL 也存在一些局限性,如无法调整样本组间部分共享的分类特征,依赖线性混合效应模型可能无法捕捉非线性趋势,且研究结果的验证存在挑战。然而,这些局限性并不影响 PAL 的重要意义,它为研究复杂疾病的发病机制提供了新的有力工具,为后续研究开辟了新的方向,有望推动生命科学和健康医学领域在相关疾病研究上取得更多突破。