《npj Precision Oncology》:Multi-omics fusion network for prediction of early recurrence in colorectal liver metastases
编辑推荐:
本研究针对结直肠癌肝转移(CRLM)术后高复发率的临床挑战,创新性地提出了融合CT影像、转录组测序(RNA sequencing)和临床风险评分(CRS)的多组学预测框架。该研究通过生成对抗插补(GAIN)处理缺失基因表达数据,并整合影像组学特征与基础模型(Foundation Model)深度特征,在129例患者队列中实现了0.75的AUC值,显著优于单模态及双模态模型。这项研究为CRLM患者的术后风险分层和个体化治疗决策提供了重要工具。
在肿瘤治疗领域,结直肠癌(CRC)是全球范围内导致死亡的主要癌种之一,而更令人担忧的是,近半数患者会出现肝转移。尽管手术切除为这些患者提供了潜在的治愈机会,但残酷的现实是,约70%的患者在术后两年内面临疾病复发的命运。这种高复发率不仅给患者带来巨大的心理压力,也使临床医生在制定术后辅助治疗和随访策略时面临艰难抉择。目前,临床上广泛使用的Fong临床风险评分(CRS)虽然提供了一定的预后指导,但其预测能力有限,无法满足精准医疗时代对个体化预后评估的日益增长的需求。
在这一背景下,来自加拿大蒙特利尔大学医院研究中心的Ralph Saber、Mayra Carneiro、Emmanuel Montagnon、An Tang、Simon Turcotte和Samuel Kadoury研究团队在《npj Precision Oncology》上发表了一项创新性研究。他们开发了一个多组学融合网络,能够综合运用计算机断层扫描(CT)影像、转录组(RNA)测序和临床数据,来预测结直肠癌肝转移(CRLM)患者术后两年内的早期复发风险。这项研究的独特之处在于,它首次将三种不同类型的数据——反映肿瘤宏观特征的影像学数据、揭示分子生物学特征的基因表达数据以及体现患者整体状况的临床数据——整合到一个统一的预测框架中。
研究人员开展这项研究的技术方法主要包括以下几个关键环节:研究基于蒙特利尔大学医院2000-2022年间129例手术切除的CRLM患者队列,收集了术前CT影像、切除转移瘤的RNA测序数据和临床资料。针对RNA测序数据中的缺失值问题,采用生成对抗插补网络(GAIN)进行数据填补,并通过条件表格生成对抗网络(CTGAN)生成合成样本以解决高维度小样本问题。影像学分析同时提取了传统影像组学特征和基于基础模型的深度特征。最终通过中间融合策略将多组学特征整合到FT-transformer模型中进行复发预测。
复发预测性能跨模态比较
研究团队系统地评估了不同数据组合对预测性能的影响。结果显示,单一模态中,临床特征的预测性能最佳(AUC=0.70),这与Fong CRS已有的预后价值相符。而双模态组合均能获得超过0.70的AUC值。最重要的是,当同时整合RNA测序、影像学和临床特征时,模型达到了最佳性能,AUC值为0.75,准确率为0.70,精确率为0.72,召回率为0.88,F1分数为0.79。
统计学分析进一步证实,多组学管道相比仅使用临床特征的模型,AUC显著提高了7.14%(p=0.002)。与仅使用RNA测序(p<0.050)、影像特征(p=0.025)或两者组合(p=0.042)的模型相比,也观察到了显著的性能提升。这些结果强调了整合三种特征类型的重要性,它们提供的互补信息共同促成了预测性能的改善。
影像学组件性能分析
在影像学组件方面,研究比较了仅使用影像组学特征、仅使用基础模型衍生特征以及两者结合的效果。单独使用影像组学特征和基础模型特征时,AUC均为0.61。而将两种特征类型结合后,分类性能得到提升,准确率达到0.70,AUC为0.62。结合策略在准确率(p=0.026)和F1分数(p=0.006)上均显示出统计学显著改善,证明了影像组学特征与基础模型衍生特征具有互补性。
所提出管道的预后价值
通过绘制Kaplan-Meier曲线,研究评估了不同模态组合训练模型的预后价值。结合CT、RNA测序和临床特征的多组学管道能够最佳地分离无病生存曲线,识别出最高比例的无复发患者。在高风险患者中,两年随访期间观察到80%的复发率,而低风险患者仅为40%。当管道包含三种模态时,风险分层的统计学显著性p值为0.0008(对数秩检验)。
单变量分析显示,多组学标志物与复发时间显著相关(HR=5.52,95%CI 2.13-14.34,p<0.005)。在多变量模型中,调整其他常规预后变量后,多组学标志物仍与复发时间独立相关(HR=3.56,95%CI 1.29-9.81,p=0.01)。这些发现证实,多组学标志物提供了独立于传统临床风险因素的预后信息。
多组学模型的潜在临床效用
决策曲线分析显示,对于大于0.45的风险阈值,提出的多组学管道的净收益高于"将所有患者视为高风险"和"不将任何患者视为高风险"的方法。在大多数概率阈值下,多组学管道的净收益高于其他模型,表明该方法具有更大的临床效用潜力。
可解释性分析
研究人员对多组学方法的不同模块进行了深入的可解释性分析。在转录组学模块方面,进行了差异基因表达分析和基因集富集分析(GSEA)。高风险组和低风险组之间的顶级差异表达基因中,有趣的是发现了与低复发风险相关的两个核糖体蛋白RPL10的假基因RPL10P6和RPL10P9。同时,MAGE家族基因(MAGEA2、MAGE2B、MAGA12、MAGE3)在高风险组中表达上调,这些基因在多种常见癌症中与不良预后相关。
GSEA揭示了与CRLM转移进展和不良预后相关的关键通路。高风险组中KRAS信号通路活性升高,与KRAS在CRC中驱动肿瘤生长和治疗抵抗的作用一致。程序性细胞死亡负调控相关通路的正富集表明高风险肿瘤可能逃避凋亡。免疫相关通路(如免疫效应过程调控)的上调暗示高风险患者存在改变的免疫微环境。
对影像组学和临床特征的SHAP分析显示,前20个最重要的影像组学特征中,有17个是纹理相关特征,突出了纹理模式在CRLM预后中的重要性。而在临床特征中,Fong CRS表现出最大的SHAP值,强调了其重要的预后价值。最终多组学融合模型中,RNA测序评分的贡献最大,其次是Fong CRS和影像评分,年龄和性别的贡献适中。
与先进表格学习模型和特征融合方法的比较
研究还比较了FT-transformer模型与其他表格学习模型的性能,结果显示FT-transformer在准确率和AUC方面持续优于其他表格学习模型。在不同机器学习模型对CT影像特征的预测性能比较中,随机森林在两种情况下均优于其他机器学习模型。
在特征融合策略方面,研究比较了提出的中间融合方法与早期融合和晚期融合方法。结果表明,提出的中间融合方法获得了最佳性能(AUC=0.75),显著优于早期融合方法(p<0.05)。
研究结论与意义
这项研究提出了一个整合CT影像、转录组学和临床数据的预后预测管道,这是首个针对CRLM患者临床结局预测的多组学管道。与先前主要依赖影像特征 alone或仅将影像与基因组数据结合的研究不同,这项工作引入了统一的深度学习框架,整合了临床数据、诊断影像和转录组学信息。
该模型的独特优势在于它不仅提高了CRLM早期复发预测的准确性,还通过基因水平与模型衍生风险组的关联提供了生物学上可解释的见解。多组学管道在预测切除手术后两年内转移复发风险方面表现出有前景的结果,AUC达到0.75±0.05。该管道学习了复杂的生物学和影像特征,同时整合了肿瘤学家广泛使用的传统评分,如临床Fong CRS。
从技术角度看,这项工作的主要贡献在于RNA测序组件,它解决了处理转录组学数据的若干挑战。通过GAIN-based模块处理RNA测序样本中未检测到的转录本,并利用CTGAN模型缓解RNA测序数据集高维度的影响。差异基因表达分析揭示了多个与肿瘤发生相关的基因,如MAGE基因家族,这些发现可能指向新的或被忽视的治疗靶点。
影像学组件同时利用影像组学模块和基于基础模型的深度学习模块,共同提升了预测能力。基础模型的应用代表了医学影像分析领域的新趋势,为在专家标注稀缺的生物医学领域中开发强大预测工具提供了新思路。
研究的局限性包括单中心数据、样本量相对有限以及深度学习架构的计算成本较高等问题。未来工作应着重于通过多中心合作构建更大数据集,并考虑纳入其他成像模态如磁共振和组织病理学图像,以进一步提升预测性能和泛化能力。
总体而言,这项研究为CRLM切除术后早期复发风险预测提供了创新的多组学解决方案,展示了多模态数据融合在精准肿瘤学中的巨大潜力,为改善患者分层和个体化治疗决策奠定了基础。随着技术的进步和成本的降低,这种综合方法有望在未来临床实践中发挥重要作用,最终改善CRLM患者的预后。