综述:穿越噪音的导航图:生物系统中跨学科高维数据整合路线图

【字体: 时间:2025年09月27日 来源:Evolutionary Biology 1.7

编辑推荐:

  本综述系统探讨了多组学(Multi-omics)数据整合在生态-进化-发育(Eco-evo-devo)研究中的前沿方法与挑战。作者强调需摒弃"单基因致表型"的简化论观点,提出通过垂直/马赛克整合、联合-个体变异分解(JIVE)、堆叠自编码器等计算生物学手段,从高维噪音中挖掘生物真实信号。文章特别指出发育理论(如表型稳健性/phenotypic robustness)与非线性基因型-表型作图对理解复杂性状演化的重要性,为跨领域研究者提供了从实验设计到数据重用的系统性路线图。

  

整合不同方法论——整体性视角

生态学、进化生物学和发育生物学领域的整合能够深化对表型变异背后生物过程的理解。这三个领域如今都广泛运用基因组学技术作为工具,但孤立使用基因组学数据往往难以捕捉生物系统的全貌。通过水平整合、垂直整合和马赛克整合三种主要数据整合策略,特别是后两种方式,可以连接不同组织层级和技术平台的数据,从而揭示表型变异的驱动机制。
马赛克整合不要求个体或特征匹配,允许将数据集联合嵌入到共同空间,这对于进化生物学家理解表型进化尤为重要。当不同组学数据来自不同个体时,马赛克整合通过统一流形逼近(UMAP)等技术实现数据融合。这种整合方式能帮助研究者发现与表型变异相关的共同基因通路或网络,而非仅仅关注特定基因组变异。

多组学方法在整体数据整合中的应用

应用多组学方法从系统角度理解表型变异的分子基础面临巨大挑战。整合多层高维数据以识别有生物学意义的信号极为复杂。每个数据类型在整合到共同空间前都需要单独标准化/正则化,利用数据的共同特征(如基因组坐标、编码/非编码基因区域、基因网络等)进行联合分析。
联合-个体变异分解(JIVE)方法通过多变量矩阵分解来整合多源基因组数据,剖析每个数据类型的联合和个体效应。JIVE能揭示多数据源间共享的底层结构,并已扩展到利用多组学数据的联合底层结构提供预测模型。另一种方法是使用堆叠自编码器,这是一种学习重建多变量输入的神经网络。通过顺序训练每个多组学数据集上的模型,利用数据共享的底层特征,堆叠自编码器在比较多组学数据方面显示出优势,如提高癌症生存预测的准确性。
对于来自不同研究的多组学数据整合,分层堆叠自编码器可能提供解决方案。它允许对每个数据集分别进行维度缩减和特征提取,以考虑每个数据集的统计特性差异,然后将重叠特征连接到共同空间中以评估多组学数据间的相互作用。

多组学基因型-表型作图

基因型-表型作图长期以来被用于识别表型变异的分子基础。通常,感兴趣的表型性状通过数量性状位点(QTL)或全基因组关联研究(GWAS)与遗传变异方面相关联。近年来,形态性状的高维表型分析已应用于量化复杂表型,但将这些表型整合到GWAS中具有挑战性。
主成分分析(PCA)将高维表型降维到描述大部分表型变异的主要轴上,这为进行QTL或GWAS带来两个主要好处:生成的表型变异轴通常在感兴趣组间存在分化,且很可能是受选择的表型变异轴;新生成的表型变异轴彼此正交,意味着在进行QTL或GWAS时不会相关。
然而,像PCA这样的降维技术可能会移除具有生物学意义的变异方面以及性状间的信息连接。偏最小二乘分析等技术允许在不进行降维的情况下量化表型-基因组-环境之间的关系,避免丢弃可能具有生物学相关性的变异。这些方法能有效识别多组学数据层(基因表达、甲基化、蛋白质组等)之间的独特联系。
当使用机器学习模型预测各种表型时,模型过拟合成为一个问题,可能导致虚假表型预测。随着维度增加,数据中潜在背景噪音也随之增加,增加模型锁定背景噪音的机会,导致假阳性结果和低预测能力。使用模型正则化和构建惩罚回归模型(如LASSO回归、岭回归或平滑阈值多变量遗传预测)是对抗过拟合的最简单方法。
将组学数据整合到基因型-表型作图中可以更好地理解复杂表型的进化。组学数据(如基因表达、甲基化、代谢组等)可视为感兴趣的表型性状,映射到基因组变异上。QTL和GWAS允许对感兴趣表型与潜在致病基因进行统计关联,但通常存在隐含假设,即遗传变化将在感兴趣致病基因的编码区而非调控区内。
通过共定位基因表达(eQTL)和甲基化(mQTL)到使用GWAS的QTL作图识别的基因组变异上,可以实现基因组调控机制的精细作图。研究发现调控元件对e/mQTL有巨大影响,mQTL与因果遗传变异的多效性共定位比eQTL更为丰富。
映射多变量表型(或环境)性状可以识别复杂多基因性状的新基因组变异。冗余分析(RDA)已被证明是将多基因表型和环境性状映射到基因组上的可靠方法,并且比许多其他GWAS形式具有更高的效力。局部PCA方法可评估种群结构对全基因组架构的精细尺度影响,局部RDA方法可能允许识别与高维表型变异相关的遗传变异。
表型变异可能在整个发育过程中由于非线性过程而产生,大多数具有高维数据的基因型-表型作图没有考虑非线性关系。基因型-表型作图不应简单假设感兴趣表型与基因组变异间存在一对一关系。虽然线性作图确实解释了相当多的基因组和表型变异,但利用非线性作图将能更好地理解表型的发育基础。
大多数表型性状的基因组架构是复杂的,因为大多数基因组架构是高度多基因性的,具有小的效应大小,而具有大效应调节表型变异的单个基因相对罕见。高度多基因的基因组架构增加了基因或位点间上位相互作用的可能性。基因或位点间的上位相互作用导致与加性遗传变异预期的表型偏离,并可能对表型发育产生级联效应。

面向大数据的生物系统研究设计

在生物系统研究中定义系统边界的方式决定了视角的广度和应用的潜力。将系统分解为组成部分有助于定位问题,但系统往往不仅仅是其各部分的总和,这意味着即使最详细的基因组数据集也无法完整描述表型。为了绘制全貌,应从研究设计的最早阶段扩大边界,以更好地背景化我们对各部分发现的理解。
成功将多个大型数据集整合到研究问题中需要尽可能早地将它们纳入研究设计,以帮助选择使用哪些技术以及在哪里应用它们。增加公开可用数据库的可见性将使研究人员能够更好地调整研究以利用这些资源;专注于元数据收集的统一性将允许在可能不同的数据集间发现共性;促进研究机构内部和之间的交叉合作将从研究开始就改善获取替代质疑角度的途径。
早期大型遗传研究数据库(如自适应进化数据库)引领了提供工具帮助研究人员进行研究设计的潮流,但需要特定的生物信息学培训来访问和分析数据。近年来,人们推动将许多不同的大规模研究编目成更易用的工具。例如,NHGRI-EBI人类GWAS目录收集了来自约7000篇出版物的45000多个GWAS信息,并创建了具有公开API的可搜索工具以实现自动化。
这些大型数据库背后隐藏着最关键的信息:元数据。虽然高维数据本质上是嘈杂的,但如果所有数据点都具有可靠且可理解的元数据,噪音的影响可以被更有效地过滤掉。这需要考虑任何科学家未来访问时可能使用的信息,并应包含数据点的丰富描述,创建真正可重用的对象。
跨越传统领域界限的合作对于扩大研究以分析整个生物系统至关重要。生物系统不仅仅包括选择的生物体或组织,要能够考虑这种更广泛的"系统之系统",我们需要利用整个科学界的知识。当考虑如何整合来自不同来源的高维数据时,与其他提供不同数据专业知识的研
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号