Flexynesis:面向精准肿瘤学的深度学习多组学整合工具包及其应用

【字体: 时间:2025年09月13日 来源:Nature Communications 15.7

编辑推荐:

  为解决多组学数据整合中深度学习方法的可复用性、可解释性及任务局限性问题,研究人员开发了Flexynesis工具包,支持回归、分类、生存分析等多任务建模,并集成自动化数据处理、超参数优化与特征选择功能。该工具显著提升了多组学模型在临床研究中的适用性与可及性,为精准肿瘤学提供了灵活高效的解决方案。

  

在精准肿瘤学领域,整合多组学数据(如基因组、转录组、表观基因组等)已成为理解癌症复杂性和指导临床决策的关键。然而,现有的深度学习整合方法普遍存在透明度低、模块化不足、部署困难以及任务适用性窄等问题。此外,许多已发表的方法缺乏可复现的代码,或仅以零散脚本形式提供,难以直接应用于实际研究场景。更为重要的是,当前工具多局限于单一任务类型(如仅支持分类或回归),无法满足临床研究中多任务联合分析的需求。这些局限性严重阻碍了深度学习在多组学数据整合中的广泛应用。

为了应对这些挑战,Bora Uyar等研究人员在《Nature Communications》上发表了题为“Flexynesis: A deep learning toolkit for bulk multi-omics data integration for precision oncology and beyond”的研究论文,推出了Flexynesis这一深度学习工具包。该工具通过标准化接口支持多种神经网络架构(如前馈网络、变异自编码器、图卷积网络等)和经典机器学习方法(如随机森林、XGBoost),能够处理回归、分类、生存分析等单任务或多任务场景,并具备自动化数据处理、超参数优化、特征重要性评估等功能。Flexynesis还支持无监督学习、跨模态预测和模型微调,显著提升了多组学数据整合的灵活性、可解释性和可部署性。

在方法学上,研究主要依托以下关键技术:

  1. 1.

    使用PyTorch和PyTorch Lightning构建模块化深度学习框架,支持多种网络架构(如DirectPred、supervised_vae、GNN等);

  2. 2.

    采用贝叶斯超参数优化(scikit-optimize)自动化模型训练与选择;

  3. 3.

    基于Integrated Gradients和GradientSHAP实现特征重要性分析与生物标志物发现;

  4. 4.

    利用TCGA、CCLE、METABRIC等公共队列数据(包括肿瘤样本和细胞系)进行验证与基准测试;

  5. 5.

    集成Galaxy平台提升工具的可及性与可复现性。

单任务建模:回归、分类与生存分析

通过训练单任务模型,Flexynesis在多个场景中表现出色。在药物反应预测(回归任务)中,使用CCLE细胞系的基因表达和拷贝数变异数据预测Lapatinib和Selumetinib的敏感性,在GDSC2数据集上验证显示预测值与实测值显著相关(r>0.6)。在微卫星不稳定性(MSI)分类任务中,基于TCGA队列的基因表达和甲基化数据,模型实现了高分类性能(AUC=0.981)。在生存分析中,对低级别胶质瘤(LGG)和胶质母细胞瘤(GBM)患者进行风险分层,模型生成的嵌入空间能清晰区分高风险与低风险群体(p<10-9)。

多任务建模:联合预测多个临床变量

在多任务设置下,Flexynesis可同时学习多个临床变量(如癌症亚型和化疗状态),并处理缺失标签。以METABRIC乳腺癌队列为例,多任务模型生成的样本嵌入同时保留了亚型信息和治疗状态的分层结构,而单任务模型仅能反映单一变量的聚类模式。在LGG/GBM队列中,联合预测年龄、组织学诊断和生存状态后,嵌入空间呈现出与临床特征一致的分层结构,且关键基因(如IDH1、EGFR)被识别为共同生物标志物。

无监督学习:样本聚类与模式发现

通过变异自编码器(VAE-MMD)进行无监督训练,Flexynesis在TCGA的21种癌症类型中实现了样本嵌入的聚类分析。k-means聚类(k=24)结果显示,无监督聚类与已知癌症类型高度一致(调整互信息=0.78),证明了其在发现潜在生物学模式方面的有效性。

跨模态学习:多组学数据翻译

Flexynesis支持跨模态预测,例如从基因表达数据重建基因必要性分数(DepMap项目)。结合蛋白质语言模型嵌入(Prot-Trans)和结构特征(describePROT),模型在预测细胞系基因依赖性时表现出显著性能提升。此外,通过附加监督头(如基因网络中心性预测),进一步优化了跨模态重建效果。

模型微调与迁移学习

在分布偏移场景下(如从TCGA肿瘤样本预测CCLE细胞系癌症类型),模型微调显著提升了性能(F1分数从-0.16升至0.8)。然而,在分布相似的场景(CCLE至GDSC)中,微调带来的改善有限,表明其适用性取决于数据分布差异。

生物标志物发现与基准测试

通过特征重要性分析,Flexynesis在8种药物反应预测中识别出已知临床标志物(如CIViCdb收录的变异),且多组学数据(突变+RNA)组合始终优于单一数据类型。基准测试显示,深度学习与经典方法性能相当(深度学习方法略优,p=0.037),但深度学习在多任务、跨模态和微调方面更具灵活性。

结论与意义

Flexynesis通过集成多种神经网络架构、自动化流程和多任务支持,解决了多组学数据整合中的关键瓶颈问题。其模块化设计使得用户无需深入编程经验即可执行复杂分析,而基准测试和真实数据集验证证明了其在精准肿瘤学中的实用价值。该工具不仅提升了多组学模型的可解释性和可复用性,还为临床转化研究提供了高效、灵活的分析平台。未来,通过扩展超参数优化算法和特征选择方法,Flexynesis有望在更广泛的生物医学数据整合场景中发挥重要作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号