编辑推荐:
为解决癌症预后标志物在多癌种中组学层面认知不足的问题,研究人员分析 1514 例患者的 PCAWG 数据,识别 17 种分子特征的预后标志物。结果发现部分生殖系特征与总生存期相关,多标记模型效果有差异,且无通用标志物。该研究为预后标志物临床应用提供思路。
在癌症研究的广阔领域中,癌症预后标志物一直是临床决策的关键依据。传统上,医生依靠临床和病理特征来判断患者的预后情况,选择合适的治疗方案。但随着基因组技术的迅猛发展,基于分子特征的标志物逐渐崭露头角,展现出巨大的潜力。像 The Cancer Genome Atlas(TCGA)这样的大型研究项目,虽然为寻找分子预后标志物提供了丰富的数据资源,但不同研究结果存在差异,且对一些分子特征的研究还不够深入。尤其是对于国际癌症基因组联盟(ICGC)和 TCGA 合作开展的 Pan-Cancer Analysis of Whole Genomes(PCAWG)项目所发现的大量分子特征,其与癌症预后的关联研究还十分有限。因此,深入剖析 PCAWG 数据中的分子特征,寻找可靠的癌症预后标志物,成为癌症研究领域亟待解决的重要问题。
在这样的背景下,来自日本国立癌症中心、东京大学等多个研究机构的研究人员,由 Mamoru Kato 等人牵头开展了一项重要研究。他们的研究成果发表在《Human Genomics》杂志上,为癌症预后标志物的研究带来了新的突破。
研究人员为了深入挖掘癌症预后标志物,采用了多种技术方法。首先,他们获取了 PCAWG 数据,这些数据包含 2778 个肿瘤样本,均进行了全基因组测序,并经 PCAWG 工作组处理,涵盖多种分子数据 。同时,为保证数据独立性,去除了与 TCGA 重叠的样本。其次,对各类分子数据进行了标准化处理,将不同类型的数据转化为便于统计分析的形式。在统计分析方面,运用单标记分析和多标记分析两种方法。单标记分析通过 Cox 比例风险模型评估每个分子标记与总生存期(Overall Survival,OS)的关联;多标记分析则先利用交叉验证的 Lasso 回归筛选变量,再用 Cox 模型确定其统计学意义 。此外,还进行了基因集富集分析,探究相关基因的功能。
下面来看具体的研究结果:
- 单标记分析:研究人员在 8 种癌症类型中发现了具有统计学意义的分子标记。RNA 在多种癌症(如肝细胞癌、慢性淋巴细胞白血病等)中展现出较高的 c-index 值,意味着其对预后预测效果较好。同时,像体细胞非编码变异(SNV/indel)和结构变异(SV)的数量等分子特征,在部分癌症中也与预后存在关联 。不过,一些分子特征,如突变特征、SVs(非数量)和 HLA 单倍型,在单标记分析中未显示出与 OS 的关联。而且,在不同癌症类型中,没有发现通用的基因标记。
- 多标记分析:在 10 种癌症类型的多标记模型中找到了有意义的标记。多标记模型在多数情况下比单标记模型的 c-index 值更高,表明其预后关联更好 。其中,不同分子类型的组合以及生殖系 SNP/indel 类型在多个癌症类型中频繁出现。但多标记模型的 c-index 值提升幅度在多数癌症中并不显著,这表明增加标记数量可能并不一定能显著提高预测准确性,也提示在临床应用中需谨慎考虑多标记模型的使用。
- 最佳模型:综合单标记和多标记分析结果,研究人员根据 c-index 值和测量成本,为每种癌症选择了 2 - 3 个最佳模型。多数癌症的最佳模型为多标记模型,且不同癌症类型的最佳模型中标记来源有所不同,包括体细胞 DNA、生殖系 DNA、RNA 或它们的组合。
- 与 TCGA 数据的一致性:研究人员对部分 PCAWG 癌症和分子类型在 TCGA 独立样本中进行验证。在单标记分析中,在 TCGA 数据中发现了部分与 PCAWG 一致的标记;多标记分析中,若要求一半以上标记通过标准,则肝细胞癌的一个模型得以保留 。同时,纳入肿瘤分期信息后,Cox 模型有所改善,标记对预后预测的影响更清晰。
- 在独立数据集的验证:研究人员在 cBioPortal 中寻找独立数据集进行验证,仅找到 4 种癌症类型和分子类型的相关数据 。结果发现,部分 RNA 标记得到验证,但 SNV/indel 标记由于突变频率或样本量问题未被发现。
研究结论和讨论部分指出,生殖系特征(如 HLA 单倍型、新抗原和结构变异数量)在多种癌症的预后关联中起着重要作用。多标记模型虽总体优于单标记模型,但多数情况下 c-index 值提升有限,这意味着在临床应用中,测量少数标记可能就足以进行预后判断 。同时,研究发现 RNA 在多数情况下是较好的预后标志物,但在部分癌症中,DNA 标志物表现更优。此外,研究未发现跨多种癌症类型与总生存期密切相关的通用标志物,这表明针对不同癌症类型,需要分别寻找合适的预后标志物。
然而,该研究也存在一定的局限性。例如,使用的生存分析统计方法较为传统,深度学习等先进方法虽有潜力,但默认设置下效果参差不齐,且存在变量选择和可解释性问题 。样本量相对较小,可能影响结果的准确性,且 RNA 数据仅在部分癌症类型中可用。不过,这些局限性也为后续研究指明了方向。总体而言,这项研究为癌症预后标志物的临床应用提供了重要的理论依据,有助于推动精准医学的发展,让癌症治疗决策更加科学、精准。