综述:数据驱动的组学整合算法与工具,实现多层生物学洞察

《Journal of Translational Medicine》:Algorithms and tools for data-driven omics integration to achieve multilayer biological insights: a narrative review

【字体: 时间:2025年04月11日 来源:Journal of Translational Medicine 6.1

编辑推荐:

  本文聚焦 2018 - 2024 年组学整合研究,将整合策略分为统计、多元和机器学习 / 人工智能三类。探讨其在揭示分子机制、识别生物标志物等方面的应用,分析面临的挑战并展望未来,为深入理解多组学整合提供了全面视角,值得一读。

  

### 组学整合的研究背景
系统生物学是一种跨学科的科学研究方法,它通过综合研究生物系统的不同分子层面,来应对生物结构的复杂性。研究重点常放在基因、蛋白质或代谢物的网络上,以探究 “组学级联反应”。这一反应代表了生物信息的连续流动,基因编码生物体的潜在表型特征,但蛋白质和代谢物的调节还受生理或病理刺激以及环境因素的影响。这种复杂的调节使得生物系统难以分解为单个组件进行研究。

组学整合为揭示生物功能、解释疾病、识别生物标志物以及揭示组学变量之间的隐藏关联提供了前所未有的可能性,已成为现代生物学研究的基石。在这篇综述中,作者聚焦于数据驱动的组学整合,即不依赖于先前生物学见解的整合策略,并将整合策略分为基于统计的方法、多元方法、机器学习和人工智能三类进行探讨。


数据驱动的组学整合方法


作者通过全面检索 PubMed 电子数据库,筛选出 64 篇利用数据驱动方法分析组学数据的研究论文,排除了纳入外部知识或混合策略的研究。


基于统计和相关性的方法中,相关性是衡量两个变量相互关系的统计指标。通过计算相关性系数和统计显著性,能评估两个组学数据集之间的关系。如简单散点图可分析表达模式,识别一致或不同的趋势;Pearson 或 Spearman 相关性分析等可用于测试不同生物背景下差异表达基因集之间的相关性,获得多种生物学见解。相关性网络是相关性的广泛应用,它将成对关联转化为图形表示,有助于可视化和分析数据集内及之间的复杂关系。像加权基因共表达网络分析(WGCNA)可识别共表达基因模块,xMWAS 可通过构建多数据整合网络图揭示组学相互联系,典型相关分析(CCA)及其变体正则化典型相关分析(rCCA)可突出两个组学数据集之间的相关性,相似性网络融合(SNF)则基于样本构建网络并融合,可检测样本簇和预测新样本标签。


多元方法是多组学整合策略中最广泛和多样的类别,常依赖于数据集的代数分解,利用潜在变量提取最相关的潜在信息。主成分分析(PCA)的扩展方法,如 SUM PCA 将 PCA 应用于融合数据块,多组学因子分析(MOFA)利用隐藏因子识别多组学数据集变异的潜在原因,MEFISTO 用于分析时间关系,多因素分析(MFA)可考虑变量分组进行分析。基于潜在成分的数据整合分析(DIABLO)是用于生物标志物发现和疾病机制研究的工具,基于投影到潜在结构或偏最小二乘法(PLS)的方法可用于回归和样本分类,共惯性分析(CIA)和多共惯性分析(MCIA)可评估多个数据集之间的关系和趋势。


机器学习(ML)和人工智能在组学整合中也有应用,分为监督学习和无监督学习。聚类是无监督学习中的一种方法,共识聚类通过聚合多次聚类迭代结果提高可靠性,如 ConsensusClusterPlus 可用于识别肿瘤分子亚型;基于潜在变量空间的聚类方法,如 iClusterBayes 可通过联合推理实现综合聚类分配;子空间聚类先利用自动编码器(AE)降维再聚类,在某些研究中可识别疾病相关的差异改变通路或癌症亚组标签。回归是监督学习中的一种方法,在组学整合中应用较少,如弹性网络回归可用于预测狗的椎间盘突出发展。此外,随机森林(RF)、自适应增强(AdaBoost)、梯度提升机等集成学习方法以及支持向量机(SVM)、深度学习等分类模型在多组学整合中也取得了较好的分类效果,AutoGluon - Tabular 可自动构建预测模型。


组学整合面临的挑战及应对策略


组学整合虽有潜力,但处理和分析组学数据矩阵面临诸多挑战。数据质量方面,需评估每个数据集的质量以保证数据可重复性,不同组学数据在类型、大小、噪声等方面存在差异,且各层特征数量不同,可能导致注释偏差和噪声富集。


针对缺失数据问题,高吞吐量平台常产生大量缺失数据,可分为随机缺失(MAR)、完全随机缺失(MCAR)和非随机缺失(MNAR)。处理方法包括单变量方法,如用均值、中位数等填充;多元方法,如 K 近邻(KNN)算法;还可使用能处理缺失值的机器学习方法,如随机森林,但并非所有机器学习模型在处理缺失数据时都表现良好。


共线性指解释变量之间存在高度线性相关,在组学数据中常见。可通过方差膨胀因子(VIF)、条件指数(CI)和方差分解比例(VDP)评估,应对策略包括增加样本量、合并共线变量、删除强相关变量或用主成分分析(PCA)组件替代相关特征,但这些策略在系统生物学中可能会影响对生物现象的理解。


高维度问题使得大多数模型容易过拟合,降低模型的泛化能力。常见的降维策略有保留在一定数量样本中检测到的特征、基于倍数变化阈值保留特征、删除近零方差的特征、选择统计显著或与临床变量相关的特征等;复杂方法包括基于回归模型系数选择特征、基于最小冗余最大相关性(mRMR)算法选择特征、利用机器学习或人工智能模型进行变量降维等。


此外,多元方法和机器学习模型的可解释性也是一个问题,一些复杂模型在转换输入特征时可能丢失单个特征的重要性和相互关系信息。虽然简单线性模型可解释性强,但预测准确性较低。为解决这一问题,出现了如局部可解释模型无关解释(LIME)和 SHapley 可加解释(SHAP)等算法。同时,组学数据的大量产生对计算能力和存储能力提出了更高要求,先进分析技术需要强大的计算资源,优化算法、在线机器学习、工作流并行化和云计算等技术可提高大规模分析的可行性,但仍需考虑计算成本和分析深度的平衡。


组学整合的未来方向


多组学整合的未来发展需解决当前的局限性,并利用新兴技术和分析方法的进步。单细胞组学和空间组学是有前景的技术,单细胞组学可捕获组织的异质性,深入了解细胞功能和行为;空间组学可在空间背景下映射基因表达模式,研究组织架构和细胞间通讯。但这些技术产生的数据量巨大,对计算和分析能力提出了挑战,现有整合工具也需进一步改进。


机器学习和人工智能方法在组学数据分析中将变得越来越重要,可克服高维度、噪声和数据异质性等挑战。特征选择对于这些技术的最佳应用至关重要,传统统计方法在处理多组学数据的复杂性时存在困难,基于机器学习和深度学习的特征选择方法提供了更具扩展性和适应性的解决方案,甚至出现了利用量子计算的多目标特征选择算法。


多尺度整合也是一个有前途的发展方向,它将基因和蛋白质表达数据与成像模态和临床元数据相结合,可更全面地理解生物系统,提高疾病诊断、预后预测和治疗干预的准确性,但也面临批效应、计算复杂性和标准化等问题。此外,建立社区驱动的数据共享和分析计划将加速多组学研究成果向临床应用的转化,促进研究人员之间的合作和思想交流,有助于建立稳健的数据分析流程和规范。


组学整合的研究总结


组学整合在系统生物学中具有重要意义,它能够在多个层面揭示病理生理机制,整合不同组学平台的互补信息,对于理解复杂疾病的机制、诊断和预后具有重要价值,也有望推动个性化医学的发展。然而,组学整合仍面临诸多挑战,如数据质量、缺失数据、共线性和维度诅咒等问题,需要采用适当的策略进行预处理和分析。虽然现有方法取得了一定成果,但仍需不断改进和创新,以充分发挥组学整合的潜力。未来,随着技术和方法的不断发展,多组学整合有望在生物医学研究中发挥更大的作用,为人类健康事业做出更大贡献。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号