
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GAUDI:基于UMAP嵌入和密度聚类的可解释多组学整合方法及其在精准医学中的应用
【字体: 大 中 小 】 时间:2025年07月02日 来源:Nature Communications 14.7
编辑推荐:
研究人员开发了名为GAUDI的非线性无监督多组学整合方法,通过独立UMAP嵌入和HDBSCAN聚类,解决了传统线性方法难以捕捉组学间复杂关系的问题。该方法在模拟和真实数据(如TCGA癌症数据集)中均表现出色,能精准识别高危患者群体(如AML中生存期仅89天的亚群),并解析单细胞水平的异质性。其创新性在于结合XGBoost和SHAP值实现生物标志物可解释性,为精准医学提供新工具。
在生命科学领域,多组学数据的整合一直是破解复杂生物系统的关键挑战。尽管基因组学、蛋白质组学和代谢组学等单组学分析能揭示特定层面的生物学信息,但它们往往难以捕捉不同分子层面间错综复杂的相互作用。传统方法如典型相关分析(CCA)、多因素降维(MOFA+)等虽广泛应用,却受限于线性假设,无法充分反映生物系统中普遍存在的非线性关系。此外,现有方法在临床转化中也面临瓶颈——例如难以从海量数据中识别具有明确生物学意义的患者亚群,或缺乏对单细胞水平异质性的解析能力。
为解决这些问题,杜克大学的研究团队开发了名为GAUDI(Group Aggregation via UMAP Data Integration)的创新方法。该方法通过两阶段UMAP降维和密度聚类,实现了对多组学数据的非线性整合与可视化,相关成果发表于《Nature Communications》。研究团队首先对每组学数据独立进行UMAP降维,保留局部数据结构;随后将降维结果拼接并进行二次UMAP整合,最终通过HDBSCAN识别具有相似多组学特征的样本集群。为增强可解释性,研究者引入XGBoost模型和SHAP值分析,量化各分子特征对聚类形成的贡献度。
关键技术包括:1)使用InterSIM包生成模拟数据集验证方法稳健性;2)整合TCGA中8种癌症的基因表达、DNA甲基化和miRNA数据;3)分析DepMap项目中258个癌细胞系的四组学数据(基因表达、甲基化、miRNA、代谢组);4)处理小鼠胚胎单细胞Hi-C和RNA-seq数据;5)通过Jaccard指数、C-index等指标系统评估性能。
多组学整合方法比较
在模拟数据测试中,GAUDI对所有预设集群(5/10/15个)均实现Jaccard指数=1的完美匹配,显著优于intNMF等方法。其独特优势在于不受样本量或异质性影响,而其他方法在集群数增加时性能波动明显(图2)。
TCGA癌症数据集分析
GAUDI在急性髓系白血病(AML)中表现尤为突出,识别出中位生存期仅89天的高危亚群(p=1.31e-08),该结果未被其他方法检出(图3C)。生存分析显示,GAUDI生成的因素与临床结局的关联强度取决于癌症类型而非方法本身,但在肉瘤中仍取得最高选择性评分(0.83)。
单细胞数据解析
整合HCT、HeLa和K562细胞系的单细胞多组学数据时,GAUDI误分类率仅1.46%。其独特价值在于发现K562细胞系内部存在显著异质性——差异表达分析揭示190个基因(FDR<0.05),包括染色质重塑和剪接体相关通路(图4B-C),这为肿瘤微环境研究提供了新视角。
功能基因组学应用
在DepMap基准测试中,GAUDI以0.656的综合得分(ARI+纯度)领先其他方法15%。对小鼠胚胎单细胞数据的整合则识别出8个细胞群体,远超原研究的4类划分。SHAP分析不仅重现了已知标志基因(如Hba-a2),还发现核糖体蛋白基因(如Rpl29)对潜在空间的贡献,暗示细胞周期调控的重要性(图6)。
这项研究的突破性在于:1)首次将UMAP的全局结构保持能力与密度聚类结合,克服了线性方法的局限性;2)通过SHAP值实现生物标志物可解释性, bridging了算法“黑箱”与临床决策的鸿沟;3)在AML高危患者识别等场景展现出明确的转化医学价值。局限性包括计算效率有待优化,以及需警惕高维数据中的过拟合风险。未来工作可探索GAUDI在免疫治疗响应预测等领域的应用,或与深度学习模型联用进一步提升分类精度。
该成果为多组学研究提供了兼具鲁棒性和可解释性的新范式,其开源实现(GitHub/MIT许可)将助力精准医学和系统生物学的发展。正如作者强调,在“大数据”时代,开发能捕捉生物系统本质复杂性的分析方法,与生成数据本身同等重要。
生物通微信公众号
知名企业招聘