基于深度学习/迁移学习的总体生存期预测方法，该方法考虑了无进展间隔（progression-free interval）以及TCGA（肿瘤基因组学联盟）的RNA-seq表达数据和KEGG（京都基因组百科）通路信息

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computational Biology and Chemistry》：Deep-learning/transfer-learning based Overall Survival prediction conditional on Progression-Free Interval with TCGA RNA-seq expression and KEGG-pathways

【字体：大中小】 时间：2025年12月31日 来源：Computational Biology and Chemistry 3.1

编辑推荐：

　　整合PFI条件的多任务深度学习模型，基于跨癌种迁移学习与KEGG通路关联，有效提升小样本癌症OS预测性能，C-index和集成Brier分数显著优于DeepSurv、PASNet等方法，揭示circadian rhythm等关键通路与生存的动态关联。

林波|赖英蕾

中国科学技术大学数学科学学院，安徽省合肥市，230026，中国

摘要

我们开发了一种新颖的深度学习网络，该网络基于迁移学习和微调，整合了无进展间隔（PFI）作为条件，并利用途径-基因（KEGG）关系来预测癌症基因组图谱（TCGA）RNA-seq表达数据的总生存期（OS）。在实际应用中，获取临床和实验数据可能成本高昂，这通常导致数据稀缺。为了适应肿瘤类型样本量较小的情况，我们使用来自其他31种肿瘤类型的数据对网络进行了预训练。我们评估了该方法在TCGA中10种肿瘤类型上的性能，并与几种现有方法进行了比较分析，包括元学习、Cox-lasso、Cox-ridge、Cox-ElasticNet、DeepSurv、Nnet-survival、Cox-Time、Cox-CC和PASNet。在10种肿瘤类型中的9种（LGG除外）中，我们的方法在C指数和综合布里尔分数方面显著优于其他方法。对于LGG，我们的方法表现相当。此外，我们的结果可用于研究KEGG途径与OS之间的时间变化。许多众所周知的途径，如昼夜节律和DNA复制途径，被普遍识别出来。

引言

在生物医学研究中，总生存期（OS）作为生存时间的衡量标准对于评估治疗效果、指导决策和改善患者预后至关重要（Nunes等人，2024年；Nguyen等人，2024年）。通过更好地预测OS，可以制定更个性化的治疗计划（Katzman等人，2018年；Tian等人，2020年）。可以识别出需要更密集治疗的患者，同时也可以识别出更适合接受支持性护理的患者（Pratz等人，2024年；Murakawa等人，2019年）。关于治疗安排、随访评估频率以及适当时机整合姑息治疗的决策也可以得到辅助（Nieder和Norum，2012年；Luo等人，2025年；Velcheti等人，2021年）。无进展间隔（PFI）作为另一种生存时间指标，通常用于提供患者预后的全面概述，从而能够更详细地分析治疗效果、疾病控制和患者的总体生存情况（Liu等人，2018年；Skoulidis等人，2024年）。在我们的研究中，OS定义为从诊断到任何原因导致的死亡的时间长度，而PFI定义为从诊断到新肿瘤事件发生的时间长度。OS和PFI之间可能存在很强的相关性，因为较长的PFI通常意味着较长的OS（Guerra Alía等人，2019年；Monk等人，2012年；Poveda等人，2010年）。这种相关性有助于预测OS（Lin等人，2024年；Rondeau等人，2015年；Emura等人，2017年）。因此，在预测OS时考虑它们之间的依赖性是必要的。

随着测序技术的进步，来自癌症患者的高通量转录组数据变得越来越容易获得（Tomczak等人，2015年；Lappalainen等人，2015年），并且已经开发出了分析这些大规模数据集的复杂方法（Knisbacher等人，2022年；Kim等人，2020年；Lopez-Garcia等人，2020年）。研究人员发现，高通量转录组数据（如RNA-seq表达数据）可以为OS分析提供宝贵的见解，从而显著改善癌症的预后和治疗（Wang等人，2022年；Jin等人，2018年）。

最近，由于技术进步和灵活的架构框架，深度学习方法在生物医学研究中变得非常流行（Meng等人，2024年；Hoang等人，2024年）。然而，深度学习方法需要大量数据才能有效训练模型并准确预测OS。在实际应用中，获取临床和实验数据可能成本高昂，这通常导致数据稀缺（Liu等人，2018年）。对于样本量相对较小的癌症，准确预测OS可能是一个挑战。

为了解决这个问题，提出了少样本学习（Few-Shot Learning）（Wang等人，2020年）作为一种有效的方法，用于改善数据有限的癌症的OS预测。这种方法利用其他类型癌症的信息来增强对特定类型癌症的预测。迁移学习（Azadi等人，2018年；Pan和Yang，2009年）是少样本学习中广泛使用的方法。在这项研究中，我们提取了来自其他类型癌症的信息用于OS预测，例如由癌症基因组图谱（TCGA）提供的泛癌症数据（Liu等人，2018年）。然后，将这些信息应用于样本量较小的特定类型癌症的OS预测（经过微调后）。

尽管泛癌症数据的样本量相对较大，但由于基因数量明显超过样本数量，将深度学习应用于RNA-seq表达数据仍然存在挑战。一般来说，对于高维度但样本量较小的RNA-seq表达数据（Witten和Tibshirani，2010年；Hastie等人，2009年），过拟合是深度学习分析中的一个典型问题。京都基因与基因组百科全书（KEGG）途径数据库包含了186个特定KEGG途径的基因集，每个途径代表一个生物过程。这些途径-基因关系可以纳入深度学习框架中。例如，PASNet（Hao等人，2018）是一个深度神经网络，它通过施加与生物学先验一致的稀疏性约束来利用这些预定义的途径结构。

在这项研究中，基于TCGA数据库，我们开发了一种新颖的深度学习方法，该方法基于迁移学习和微调，整合了PFI作为条件，并利用途径-基因关系来预测OS。在生存分析中，已经开发了多种深度学习方法来预测生存时间。其中一些方法基于连续时间模型，如DeepSurv（Katzman等人，2018年）、Cox-Time（Kvamme等人，2019年）、Cox-CC（Kvamme等人，2019年）和PC-Hazard（Kvamme和Borgan，2019年）。其他方法依赖于离散时间模型，包括DeepHit（Lee等人，2018年）、N-MTLR（Yu等人，2011年）、PMF（Kvamme和Borgan，2019年）和Nnet-survival（Gensheimer和Narasimhan，2019年）。离散时间模型不需要某些参数假设，尽管产生的生存时间估计较为粗糙。相比之下，连续时间模型提供了连续的生存时间，但需要某些参数假设。在这项研究中，为了充分利用深度神经网络捕捉协变量和生存时间之间复杂关系的潜力，我们避免做出任何参数假设，而是假设生存时间是离散的。此外，将使用样条插值（Wahba，1975年；Wahba，1978年）来平滑深度神经网络估计的离散时间分布，从而实现连续的生存时间。

一般来说，我们首先训练了一个多任务网络（Collobert和Weston，2008年），使用RNA-seq基因表达数据作为输入，学习两个生存时间（OS和PFI）和癌症类型的联合概率质量函数。途径-基因关系被纳入多任务网络中。然后，给定特定的癌症类型，我们利用联合概率质量函数的估计、条件概率分布框架和样条插值来估计连续且平滑的OS生存概率。

我们评估了该方法在TCGA中10种肿瘤类型上的性能，并与几种现有方法进行了比较分析。我们考虑了元学习（Qiu等人，2020年），它能够适应数据有限的新任务，但它没有考虑PFI生存时间信息或途径-基因关系。我们还考虑了Cox-lasso（Li和Sillanp??，2012年），它是Cox比例风险模型的扩展，包含了Lasso正则化；以及Cox-ridge（de Vlaming和Groenen，2015年），它通过应用Ridge正则化扩展了Cox比例风险模型；还有Cox-ElasticNet（Algamal和Lee，2015年），它将Lasso和Ridge正则化的特性结合到一个框架中。此外，我们还在比较中包括了几种基于深度学习的生存模型。DeepSurv（Katzman等人，2018）是Cox模型的深度前馈神经网络扩展。DeepHit（Lee等人，2018）直接使用深度神经网络对离散生存分布进行建模。Nnet-survival（Gensheimer和Narasimhan，2019）是一个基于离散时间分析的完全参数化模型。Cox-Time（Kvamme等人，2019）和Cox-CC（Kvamme等人，2019）是允许时间依赖协变量效应的Cox模型的神经扩展。PASNet（Hao等人，2018）是一个整合了生物学先验知识的途径相关稀疏深度网络。

此外，我们还研究了哪些途径与癌症生存结果相关。途径与生存的关联可能会随时间变化，这在癌症研究中可能具有生物学意义。因此，在生存分析中评估这些时间动态至关重要。现有的基于比例风险的方法无法实现这一点（在基于比例风险的方法中，假设途径与生存时间之间的关联在所有时间点都是恒定的）。

数据集和预处理

我们从癌症基因组图谱（TCGA）数据集中获取了RNA测序表达数据。最近，Liu等人（2018年）整理了基因组和生存数据，这些数据现在可以在TCGA泛癌症临床数据资源（TCGA-CDR）中找到。可以通过UCSC Xena浏览器访问TCGA泛癌症数据集的基因组和生存信息（https://xenabrowser.net/datapages/）。在我们的研究中，我们选择了总生存期（OS），定义为从诊断到任何原因导致的死亡的时间长度。

方法性能比较

从图2、图3和图S2-S3（详见补充文件1）可以看出，我们的方法（多任务）在9种肿瘤类型中（LGG除外）的C指数和综合布里尔分数方面优于其他方法（“目标训练数据”的样本量为20或250）。这表明我们的方法（多任务）在这些肿瘤类型上的预测性能优于其他方法。对于LGG，元学习方法（样本量为

结论

总体而言，我们在基于途径的稀疏深度学习架构（PASNet Hao等人，2018年）以及迁移学习方法的基础上进行了改进，引入了一种新的策略，将PFI作为条件因素。我们改进了TCGA RNA-seq表达数据的OS预测，特别是在样本量有限的情况下。在10种肿瘤类型中的9种（LGG除外），我们的方法（多任务）在C指数和综合布里尔分数方面优于其他方法。