编辑推荐:
为解决微生物共现网络推理算法评估难题,研究人员开展相关研究,提出新交叉验证法,推动微生物组研究发展。
微生物,这群微小到肉眼难以察觉的生命,却在地球上的各个角落发挥着巨大的作用。它们存在于土壤、水、空气以及动植物体内,构建出了复杂而神秘的生态网络。在人体中,微生物与我们的健康息息相关,肠道内数万亿的细菌(微生物群)与人体形成了共生关系,不仅能抵御有害微生物的入侵,还参与免疫调节和食物消化。然而,当微生物的平衡被打破,比如受到抗生素、免疫失调等因素影响时,就可能引发各种疾病。
为了深入了解微生物之间的相互作用,科学家们引入了共现网络推理算法。这些算法能够帮助我们揭示微生物之间复杂的关联,从而为疾病研究和生态保护提供重要线索。但目前,在微生物组研究领域面临着诸多挑战。一方面,获取微生物组丰度数据困难重重,高通量测序虽然能低成本地对大量 DNA 片段测序,但后续处理流程复杂。另一方面,现有的网络推理算法众多,如基于皮尔逊(Pearson)相关、斯皮尔曼(Spearman)相关、最小绝对收缩和选择算子(LASSO)以及高斯图形模型(GGM)等算法,它们各自有超参数,不同选择会显著影响网络结构和生物学解释。而且,之前评估这些算法的方法也存在问题,外部数据验证受限于可靠真实数据的稀缺和外部数据集的潜在偏差;网络一致性分析可能会偏向过于稀疏的网络;合成数据评估则无法完全反映真实生物网络的复杂性。
为了攻克这些难题,来自北亚利桑那大学(School of Informatics, Computing, and Cyber Systems, Northern Arizona University)和舍布鲁克大学(Département d’informatique, Université de Sherbrooke)的研究人员 Daniel Agyapong、Jeffrey Ryan Propster 等人开展了一项关于 “Cross - validation for training and testing co - occurrence network inference algorithms” 的研究,相关成果发表在《BMC Bioinformatics》上。
研究人员在此次研究中用到了多种关键技术方法。首先是数据预处理和归一化,包括标准缩放和 Yeo - Johnson 幂变换,这能将原始数据转化为更适合分析的格式。其次,他们引入了 3 折交叉验证(3-fold cross - validation)方法来评估共现网络推理算法的性能,在分析时会随机将数据分为 3 份,1 份作为测试集,另外 2 份作为训练集,通过多次重复和平均测试误差来得到总体性能指标。
研究结果如下:
- 不同变换方法对预测准确性的影响:通过对 Amgut2 真实微生物组数据集的分析发现,Yeo - Johnson 变换与标准缩放相结合,相较于仅使用标准缩放,能显著提高测试集上的预测准确性。
- 基于相关性方法的训练:利用 3 折交叉验证为基于相关性的算法选择最佳的相关系数阈值和 λ 值,结果显示不同算法的最佳阈值不同,如 Pearson 相关系数的最佳阈值为 0.495,Spearman 相关系数的最佳阈值为 0.448,这些阈值能使验证误差最小化。
- 总样本量对测试误差的影响:研究发现,当样本量超过 20 - 30 时,进一步增加样本数量对提高预测准确性的作用不再明显。在不同数据集上,不同算法表现各异,如在 Amgut1 数据集上,GGM 在 10 - 20 样本量时准确性最高,LASSO 在样本量大于 30 时表现最佳;在 iOral 数据集上,GGM 表现最优;在 crohns 数据集上,LASSO 和 GGM 表现相似。
- 边缘检测变异性:不同算法在不同数据集上检测到的边缘数量和性质存在差异。如在 amgut1 数据集中,Pearson 和 Spearman 相关方法在边缘检测上差异显著;在 ioral 数据集中,LASSO 和 GGM 表现不同。此外,LASSO 和 GGM 能检测到一些基于相关性方法可能忽略的负相关关系,这对于理解微生物群落中的抑制性相互作用至关重要。
- 网络可视化:通过对美国肠道项目 1 数据集和 ioral 数据集的网络可视化分析发现,不同算法得到的网络结构不同,但一些关键节点在不同算法的网络中都处于核心地位,这表明它们在微生物生态中具有重要作用。
研究结论和讨论部分指出,此次研究提出的交叉验证方法在训练(如选择最佳相关阈值)和测试各种网络推理算法性能方面都非常有效。同时,研究还发现 LASSO 和 GGM 在推断共现网络时表现出较高的准确性。此外,研究明确了样本量对算法性能的影响,为后续实验设计提供了重要参考。该研究成果不仅提升了微生物网络推理的可靠性,还为其他生物信息学领域,如药物重新利用、药物 - 药物相互作用预测、RNA N6- 甲基腺苷修饰位点预测等,提供了更可靠的评估框架,具有广泛的应用前景。这一研究为微生物组研究领域开辟了新的道路,有望推动相关领域取得更多突破性进展。