LEOPARD:解开多时间点组学数据缺失视图之谜,开启个性化医疗新征程

《Nature Communications》:

【字体: 时间:2025年04月07日 来源:Nature Communications

编辑推荐:

  在多时间点组学数据研究中,缺失视图问题阻碍了对个体生理时间动态的探索。研究人员开展了名为 LEOPARD(通过表示解缠和时间知识转移完成多时间点组学数据缺失视图)的研究。结果显示,LEOPARD 在多个数据集上表现优异,该研究为个性化医疗提供了新视角。

  在生命科学和医学研究领域,多组学技术的飞速发展为探索复杂疾病的生物学机制带来了新契机。通过多组学研究,科研人员能够从多个层面获取高维度的生物数据,为深入理解疾病的发生、发展过程提供了丰富信息。然而,在实际研究中,多时间点组学数据常常面临缺失视图的问题。这就好比拼图时缺少了关键的几块,使得研究人员难以完整地拼凑出生物系统的全貌。缺失视图不仅会降低统计效能,还可能导致研究结果出现偏差,尤其是在队列研究中,这个问题更为突出。在纵向研究中,由于样本脱落、实验误差或特定组学分析平台在某些时间点不可用等因素,数据的不完整性进一步加剧,严重阻碍了多组学的整合分析以及对疾病相关因素的深入探究。因此,开发一种专门针对多时间点组学数据缺失视图的补全方法迫在眉睫。
为了解决这一难题,来自德国亥姆霍兹慕尼黑中心(Helmholtz Zentrum München)等多个机构的研究人员开展了一项极具创新性的研究。他们提出了 LEOPARD(missing view completion for multi - timepoint omics data via representation disentanglement and temporal knowledge transfer,通过表示解缠和时间知识转移完成多时间点组学数据缺失视图)这一神经网络方法,并在多个真实的人类组学数据集上进行了全面评估。研究结果表明,LEOPARD 在处理多时间点组学数据缺失视图补全问题上表现卓越,为后续的生物学研究和个性化医疗提供了有力支持。该研究成果发表在《Nature Communications》杂志上。
在研究方法上,研究人员使用了多个真实的人类组学数据集,包括来自 MGH COVID 研究的蛋白质组学数据和 KORA 队列的代谢组学数据等。他们构建了多种数据集,涵盖单组学和多组学数据,以评估 LEOPARD 的性能。在模型构建方面,设计了条件生成对抗网络(cGAN)作为参考方法,并详细介绍了 LEOPARD 的架构,包括内容编码器、时间编码器、生成器和多任务判别器等组件,通过最小化对比损失、表示损失、重建损失和对抗损失来训练模型。同时,运用了多种评估指标,如百分比偏差(PB)和统一流形近似与投影(UMAP)可视化等,对不同方法的性能进行评估。
研究结果主要从以下几个方面展开:
  • 评估数据集的特征:使用四个真实的纵向组学数据集对 LEOPARD 进行评估,这些数据集在数据变化、时间跨度和样本大小等方面各不相同。例如,MGH COVID 蛋白质组学数据集时间跨度为 3 天,KORA 代谢组学数据集时间跨度为 7 年等。通过对这些数据集的分析,为后续的研究提供了多样化的数据基础。
  • LEOPARD 架构概述:LEOPARD 通过将组学数据分解为内容和时间表示,并利用自适应实例归一化(AdaIN)将时间知识转移到特定内容中,从而完成缺失视图的补全。在训练过程中,通过对比学习优化数据的分解,使模型能够有效学习不同视图和时间点的特征。通过实验验证,LEOPARD 能够成功地将组学数据分解为内容和时间表示,且随着训练的进行,相似的表示逐渐聚集在一起。
  • 与传统方法的对比评估:将 LEOPARD 与 missForest、PMM、GLMM 等传统方法以及 cGAN 模型进行对比。在不同数据集上的评估结果显示,在 MGH COVID 蛋白质组学数据集上,missForest 总体表现出最低的 PB,但在 KORA 代谢组学数据集上,LEOPARD 表现更优,其 IQR 值最小。在 KORA 多组学数据集上,LEOPARD 在增加训练样本数量后,能够大幅降低 PB 值,优于其他方法。同时,通过 UMAP 可视化发现,LEOPARD 能够更好地捕捉数据的分布特征,而其他方法存在过拟合或无法有效捕捉数据变化的问题。
  • 对高 PB 值数据的分析:在 KORA 多组学数据集中,研究发现低丰度的蛋白质在缺失值填补时倾向于表现出极高的 PB 值。例如,SCF(stem cell factor)和 NT3(Neurotrophin - 3),低丰度的 NT3 在 LEOPARD 填补数据时 PB 值高达 1.187。增加训练样本数量可以显著降低 LEOPARD 和 cGAN 的这些极高 PB 值,但对 missForest、PMM 和 GLMM 效果不明显。
  • 含缺失数据点的观测视图评估:当观测视图包含缺失值时,在 KORA 代谢组学数据集上的评估显示,LEOPARD 和 missForest 在 PB 方面对缺失数据点具有较强的鲁棒性,而 cGAN 和 GLMM 则表现出较高的敏感性。随着缺失数据比例的增加,LEOPARD 的性能虽仍优于其他方法,但也出现了数据分布变化的情况,即填补数据的变异性有所降低。
  • 案例研究:在回归分析方面,使用 KORA 代谢组学数据集识别与年龄相关的代谢物,以及使用 KORA 多组学数据集识别与估计肾小球滤过率(eGFR)相关的蛋白质。结果表明,LEOPARD 在保持原始数据特征方面表现出色,其填补数据与观测数据在效应符号、效应大小的 Spearman 相关性以及显著变量的一致性上表现最佳。在分类分析中,利用 KORA 代谢组学和多组学数据集进行慢性肾脏病(CKD)预测,LEOPARD 在 F1 评分、准确率、敏感性、特异性等指标上均优于其他方法。
  • 最小训练样本数和任意时间知识转移评估:研究发现,在不同数据集上,LEOPARD 的视图补全性能随着训练样本数量的增加而提升。在 MGH COVID 蛋白质组学和 KORA 代谢组学数据集上,当 obsNum = 0 时,大约需要 120 个训练样本才能获得稳定结果;当 obsNum 增加到 20 时,约 50 - 80 个样本可使性能稳定。此外,LEOPARD 能够进行任意时间知识转移,在处理不同时间点和视图的数据补全时表现出一定的灵活性,且增加额外时间点的数据进行训练可以提高填补效果。
    研究结论和讨论部分指出,LEOPARD 为多时间点组学数据缺失视图补全提供了一种有效的解决方案。通过表示解缠和时间知识转移,LEOPARD 能够在复杂的数据环境中准确地填补缺失视图,并且在生物学信息保留方面表现出色。尽管该方法在应用中存在一些局限性,如对数据质量要求较高、对高比例缺失数据处理能力有限等,但随着组学技术的不断发展和数据积累,LEOPARD 有望在多时间点组学数据分析和个性化医疗中发挥更大的作用,为深入理解疾病的发生发展机制、预测疾病风险以及制定个性化治疗方案提供有力支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号