在生物医学研究中,总生存期(OS)作为生存时间的衡量标准对于评估治疗效果、指导决策和改善患者预后至关重要(Nunes等人,2024年;Nguyen等人,2024年)。通过更好地预测OS,可以制定更个性化的治疗计划(Katzman等人,2018年;Tian等人,2020年)。可以识别出需要更密集治疗的患者,同时也可以识别出更适合接受支持性护理的患者(Pratz等人,2024年;Murakawa等人,2019年)。关于治疗安排、随访评估频率以及适当时机整合姑息治疗的决策也可以得到辅助(Nieder和Norum,2012年;Luo等人,2025年;Velcheti等人,2021年)。无进展间隔(PFI)作为另一种生存时间指标,通常用于提供患者预后的全面概述,从而能够更详细地分析治疗效果、疾病控制和患者的总体生存情况(Liu等人,2018年;Skoulidis等人,2024年)。在我们的研究中,OS定义为从诊断到任何原因导致的死亡的时间长度,而PFI定义为从诊断到新肿瘤事件发生的时间长度。OS和PFI之间可能存在很强的相关性,因为较长的PFI通常意味着较长的OS(Guerra Alía等人,2019年;Monk等人,2012年;Poveda等人,2010年)。这种相关性有助于预测OS(Lin等人,2024年;Rondeau等人,2015年;Emura等人,2017年)。因此,在预测OS时考虑它们之间的依赖性是必要的。
随着测序技术的进步,来自癌症患者的高通量转录组数据变得越来越容易获得(Tomczak等人,2015年;Lappalainen等人,2015年),并且已经开发出了分析这些大规模数据集的复杂方法(Knisbacher等人,2022年;Kim等人,2020年;Lopez-Garcia等人,2020年)。研究人员发现,高通量转录组数据(如RNA-seq表达数据)可以为OS分析提供宝贵的见解,从而显著改善癌症的预后和治疗(Wang等人,2022年;Jin等人,2018年)。
最近,由于技术进步和灵活的架构框架,深度学习方法在生物医学研究中变得非常流行(Meng等人,2024年;Hoang等人,2024年)。然而,深度学习方法需要大量数据才能有效训练模型并准确预测OS。在实际应用中,获取临床和实验数据可能成本高昂,这通常导致数据稀缺(Liu等人,2018年)。对于样本量相对较小的癌症,准确预测OS可能是一个挑战。
为了解决这个问题,提出了少样本学习(Few-Shot Learning)(Wang等人,2020年)作为一种有效的方法,用于改善数据有限的癌症的OS预测。这种方法利用其他类型癌症的信息来增强对特定类型癌症的预测。迁移学习(Azadi等人,2018年;Pan和Yang,2009年)是少样本学习中广泛使用的方法。在这项研究中,我们提取了来自其他类型癌症的信息用于OS预测,例如由癌症基因组图谱(TCGA)提供的泛癌症数据(Liu等人,2018年)。然后,将这些信息应用于样本量较小的特定类型癌症的OS预测(经过微调后)。
尽管泛癌症数据的样本量相对较大,但由于基因数量明显超过样本数量,将深度学习应用于RNA-seq表达数据仍然存在挑战。一般来说,对于高维度但样本量较小的RNA-seq表达数据(Witten和Tibshirani,2010年;Hastie等人,2009年),过拟合是深度学习分析中的一个典型问题。京都基因与基因组百科全书(KEGG)途径数据库包含了186个特定KEGG途径的基因集,每个途径代表一个生物过程。这些途径-基因关系可以纳入深度学习框架中。例如,PASNet(Hao等人,2018)是一个深度神经网络,它通过施加与生物学先验一致的稀疏性约束来利用这些预定义的途径结构。
在这项研究中,基于TCGA数据库,我们开发了一种新颖的深度学习方法,该方法基于迁移学习和微调,整合了PFI作为条件,并利用途径-基因关系来预测OS。在生存分析中,已经开发了多种深度学习方法来预测生存时间。其中一些方法基于连续时间模型,如DeepSurv(Katzman等人,2018年)、Cox-Time(Kvamme等人,2019年)、Cox-CC(Kvamme等人,2019年)和PC-Hazard(Kvamme和Borgan,2019年)。其他方法依赖于离散时间模型,包括DeepHit(Lee等人,2018年)、N-MTLR(Yu等人,2011年)、PMF(Kvamme和Borgan,2019年)和Nnet-survival(Gensheimer和Narasimhan,2019年)。离散时间模型不需要某些参数假设,尽管产生的生存时间估计较为粗糙。相比之下,连续时间模型提供了连续的生存时间,但需要某些参数假设。在这项研究中,为了充分利用深度神经网络捕捉协变量和生存时间之间复杂关系的潜力,我们避免做出任何参数假设,而是假设生存时间是离散的。此外,将使用样条插值(Wahba,1975年;Wahba,1978年)来平滑深度神经网络估计的离散时间分布,从而实现连续的生存时间。
一般来说,我们首先训练了一个多任务网络(Collobert和Weston,2008年),使用RNA-seq基因表达数据作为输入,学习两个生存时间(OS和PFI)和癌症类型的联合概率质量函数。途径-基因关系被纳入多任务网络中。然后,给定特定的癌症类型,我们利用联合概率质量函数的估计、条件概率分布框架和样条插值来估计连续且平滑的OS生存概率。
我们评估了该方法在TCGA中10种肿瘤类型上的性能,并与几种现有方法进行了比较分析。我们考虑了元学习(Qiu等人,2020年),它能够适应数据有限的新任务,但它没有考虑PFI生存时间信息或途径-基因关系。我们还考虑了Cox-lasso(Li和Sillanp??,2012年),它是Cox比例风险模型的扩展,包含了Lasso正则化;以及Cox-ridge(de Vlaming和Groenen,2015年),它通过应用Ridge正则化扩展了Cox比例风险模型;还有Cox-ElasticNet(Algamal和Lee,2015年),它将Lasso和Ridge正则化的特性结合到一个框架中。此外,我们还在比较中包括了几种基于深度学习的生存模型。DeepSurv(Katzman等人,2018)是Cox模型的深度前馈神经网络扩展。DeepHit(Lee等人,2018)直接使用深度神经网络对离散生存分布进行建模。Nnet-survival(Gensheimer和Narasimhan,2019)是一个基于离散时间分析的完全参数化模型。Cox-Time(Kvamme等人,2019)和Cox-CC(Kvamme等人,2019)是允许时间依赖协变量效应的Cox模型的神经扩展。PASNet(Hao等人,2018)是一个整合了生物学先验知识的途径相关稀疏深度网络。
此外,我们还研究了哪些途径与癌症生存结果相关。途径与生存的关联可能会随时间变化,这在癌症研究中可能具有生物学意义。因此,在生存分析中评估这些时间动态至关重要。现有的基于比例风险的方法无法实现这一点(在基于比例风险的方法中,假设途径与生存时间之间的关联在所有时间点都是恒定的)。