结直肠癌内在分子亚型稳健分类器的开发与验证:一项推动精准医疗的研究
《Journal of Translational Medicine》:A robust classifier for the intrinsic consensus molecular subtypes in colorectal cancer
【字体:
大
中
小
】
时间:2025年11月23日
来源:Journal of Translational Medicine 7.5
编辑推荐:
本研究针对结直肠癌(CRC)内在共识分子亚型(iCMS)分类在单样本应用中易受技术变异干扰的问题,开发了一种基于非参数相关距离的稳健单样本分类器(SSC)。该分类器聚焦于上皮细胞特异性表达的201个基因,通过合成中心体进行相似性计算,在独立验证队列中展现出高准确性(88%-90%)和预后价值,且对噪声、低肿瘤纯度等扰动具有强鲁棒性。其成功应用为iCMS的临床转化、治疗反应预测及患者分层提供了可靠工具。
在结直肠癌(Colorectal Cancer, CRC)这片复杂的研究领域中,科学家们早已认识到肿瘤并非铁板一块,而是具有高度的异质性。为了更好地理解这种多样性并将其应用于临床,研究人员根据肿瘤整体的基因表达特征,将其划分为四个主要的共识分子亚型(Consensus Molecular Subtypes, CMS),即CMS1到CMS4。例如,CMS1亚型常与微卫星不稳定性(Microsatellite Instability, MSI)相关,而富含间质的CMS4亚型则通常预示着较差的预后。然而,这种基于“整体”(Bulk)肿瘤组织的分类方法存在一个固有的局限:它反映的是肿瘤内各种细胞类型(如癌细胞、免疫细胞、 stromal细胞等)基因表达的“混合信号”,这可能会掩盖其中最关键组分——上皮来源的癌细胞——的真实状态。
随着单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术的突破,科学家得以深入观察单个细胞的基因表达程序。一项对37万多个结直肠癌上皮细胞的分析揭示,在纷繁复杂的整体信号之下,上皮细胞本身主要呈现出两种内在的、稳定的状态,它们与整体的CMS2和CMS3亚型高度相关,因此被命名为内在CMS2和内在CMS3(intrinsic CMS2/3, iCMS2/3)。这一发现至关重要,因为它剥离了间质等成分的干扰,直指癌细胞的本质特征。研究表明,iCMS分型具有独立的预后价值,例如,同样是富含间质的CMS4肿瘤,其上皮细胞是iCMS3的患者比是iCMS2的患者预后更差。更令人兴奋的是,iCMS分型在体外实验中显示出预测化疗(如FOLFOX vs FOLFIRI)敏感性的潜力,这为精准治疗带来了新的希望。
然而,将iCMS分型从研究工具转化为临床可用的生物标志物,面临着一个巨大挑战:如何为单个患者样本(即“单样本”)进行准确、稳健的分类?此前发表的iCMS分类方法并非为单样本应用场景优化,通常需要依赖批次校正(Batch Correction)技术,这在临床实践中(如临床试验筛查时对单个新样本进行分类)往往难以实现。技术变异、肿瘤纯度低、基因检测覆盖不全等问题都可能影响分类结果的可靠性。因此,开发一种能够抵抗这些干扰、适用于单样本分析的稳健分类器,成为推动iCMS研究走向临床应用的迫切需求。
为此,由Petros Tsantoulis和Sabine Tejpar等领导的研究团队在《Journal of Translational Medicine》上发表了一项重要研究,旨在解决这一瓶颈问题。他们开发并验证了一种用于iCMS分型的单样本分类器(Single-Sample Classifier, SSC),该分类器在设计上就充分考虑到了现实世界应用的复杂性。研究表明,这个名为iCMS-SSC的新工具不仅在独立验证数据中表现出高准确性,而且对各种技术性和生物性扰动展现了惊人的稳健性,同时在临床试验数据的回顾性分析中保留了强大的预后信号,为iCMS的广泛应用铺平了道路。
为了开展这项研究,研究人员运用了几个关键的技术方法。首先,他们从已发表的iCMS基因集中,基于公共单细胞数据集,筛选出201个在结直肠癌上皮细胞中特异性高表达的基因,旨在减少非上皮细胞来源的干扰。其次,他们利用三个公共数据集(TCGA、PETACC-3、GSE39582,共1779个样本)生成大量(192个)合成基因表达中心体(Centroids)作为参考。核心算法是基于非参数统计方法(默认使用Kendall's τ)计算待分类样本与这些中心体之间的相关性距离,进而通过两种判读标准(分布分位数DQ或K近邻KNN投票)确定iCMS亚型。整个流程无需批次校正。验证队列包括未参与分类器开发的日内瓦肿瘤登记(GTR)结直肠癌队列(RNA测序数据)、公共数据集E-MTAB-12862以及VELOUR临床试验数据,通过与金标准(将新数据与庞大参考数据集重新聚类)比较来评估性能,并测试了其对噪声、基因丢失、低纯度等情况的耐受性,最后分析了其与患者生存期的关联。
研究人员首先致力于优化用于分类的基因集。他们从先前定义的iCMS差异表达基因中,精选出201个在上皮细胞中表达最强且最特异的基因。分析显示,与使用全部iCMS基因相比,使用这个上皮基因子集能够显著提高基因表达方差中由iCMS类别所解释的比例,同时减少了不相关的变异来源。基因集富集分析证实,这个精简的基因集在代表重要生物学通路(如癌症相关通路、细胞类型特征、Reactome通路)方面,与更大的原始基因集效果相当甚至更优。在训练阶段,使用合成中心体和DQ或KNN分类标准,新分类器与参考分型结果的一致性高达98%以上,且能对绝大多数样本(约87-89%)做出“确信的”分类。研究还发现,那些在分类上表现出iCMS2和iCMS3混合特征的样本,其无复发生存期略差于“纯”iCMS亚型的样本,提示肿瘤细胞的异质性或可塑性可能与预后相关。
GTR队列是一个独立的、未参与训练的真实世界队列。研究人员通过耗时且计算量大的方法(将GTR数据与近3000个样本的参考数据集整合重新聚类)为每个GTR样本确定了参考iCMS分型,作为评估新分类器的“金标准”。结果显示,iCMS-SSC无论是使用DQ标准还是KNN标准,其“确信”分类与参考分型的一致性均超过90%,显著优于此前发表的基于最近模板预测(Nearest Template Prediction, NTP)的批量分类器(后者在不进行批次校正时一致性仅为75.4%)。新分类器的性能对是否进行批次校正不敏感,表现出良好的稳定性。
在公共数据集E-MTAB-12862中的进一步验证
在另一个大型公共RNA测序数据集(E-MTAB-12862,包含1062个肿瘤样本)中,iCMS-SSC再次证明了其卓越的性能。其最近样本分类(不要求确信)的准确率达到了90%左右,继续优于NTP分类器(81.4%)。这表明iCMS-SSC在不同来源的数据集中都具有良好的泛化能力。
为了模拟现实世界中可能遇到的各种挑战,研究人员对分类器进行了严格的压力测试:
- •抗噪声能力:向基因表达数据中添加不同程度的随机噪声。结果显示,即使噪声占总方差的比例高达70%,iCMS-SSC的分类性能依然保持稳定,且始终优于NTP分类器。
- •基因丢失耐受性:模拟因检测技术限制导致部分基因信息缺失的情况。即使随机移除大部分(如仅剩20-30个)分类基因,iCMS-SSC的性能下降仍较为平缓。而如果优先保留差异最显著的基因,在小基因集(如低于50个)下,有序选择基因甚至能提升分类器性能。
- •肿瘤纯度影响:利用E-MTAB-12862中提供的肿瘤纯度信息,发现iCMS-SSC在低纯度样本(如纯度低于30%)中仍能保持接近90%的准确率,而NTP分类器的准确率则降至80%以下。
- •混合样本分析:通过合成不同比例的iCMS2和iCMS3样本混合体,测试分类器对肿瘤内异质性的反应。iCMS-SSC的相似性评分能较好地反映样本的实际组成比例,校准良好。相比之下,NTP分类器对iCMS2成分的存在极为敏感,容易将含有少量iCMS2的混合样本判定为iCMS2。
- •VELOUR临床试验数据:将iCMS-SSC应用于VELOUR试验(评估化疗联合抗血管生成药物治疗转移性结直肠癌)的数据。结果显示,无论是iCMS-SSC(DQ或KNN标准)还是NTP分类器,都将iCMS2亚型鉴定为与更长的无进展生存期(PFS)和总生存期(OS)相关的有利因素。iCMS-SSC的风险比(Hazard Ratio, HR)甚至略优于NTP,表明其预后判别能力至少不逊于现有方法。
- •E-MTAB-12862数据集:在该数据的转移性患者亚组中,iCMS-SSC(DQ和KNN)显示出显著的预后价值,而NTP分类器则没有。更重要的是,在对整个队列(1062例患者)进行多变量分析(纳入分期、分级、年龄和CMS分型等已知预后因素)时,iCMS-SSC仍然是总生存期的独立预后因素,而NTP分类器在此模型中则失去了显著性。
在计算速度方面,iCMS-SSC相比基于置换检验的NTP算法具有巨大优势。在GTR队列上,iCMS-SSC的计算时间(约12秒)仅为NTP算法(约124秒)的十分之一,并且支持并行计算,能进一步缩短实际运行时间,更适用于大规模数据分析或临床快速检测场景。
综上所述,这项研究成功地开发并验证了一种名为iCMS-SSC的稳健分类器,专门用于结直肠癌内在分子亚型(iCMS)的单样本鉴定。该分类器的核心优势在于其设计理念:通过聚焦上皮特异性基因减少生物噪声,利用大量合成中心体和非参数距离度量来捕获真实世界的变异,从而无需依赖批次校正即可实现高精度分类。广泛的验证表明,iCMS-SSC不仅在独立队列中与金标准高度一致,而且对技术噪声、基因缺失、低肿瘤纯度等常见挑战表现出卓越的耐受性,其分类结果在回顾性临床数据分析中具有强大的独立预后价值。
研究的讨论部分进一步深化了这些发现的意义。作者指出,iCMS-SSC对肿瘤内异质性(表现为“混合”iCMS特征)的可能识别,以及该特征与较差预后的关联,为理解肿瘤可塑性和治疗抵抗开辟了新视角。与NTP相比,iCMS-SSC对iCMS2/iCMS3混合样本的反应更符合生物学上的连续变化,这可能使其在反映真实的肿瘤生物学状态方面更为准确。尽管iCMS分型本身侧重于上皮成分,但作者展望未来,将其与间质和免疫浸润的评估相结合,将能更全面地描绘肿瘤的生物学特征。
该研究的局限性在于其验证数据均来自回顾性队列,未来需要在前瞻性设计和干预性随机临床试验中进一步验证其预测治疗反应的能力。然而,iCMS-SSC的推出无疑是一个重要的里程碑。它提供了一个标准化、高效且易于获取的开源工具(R包),将极大地促进iCMS在结直肠癌研究领域的广泛采纳和深入探索。无论是用于回顾性生物标志物分析、临床试验的患者分层,还是未来潜在的临床决策支持,iCMS-SSC都为实现结直肠癌更深层次的精准医疗提供了强有力的技术支撑。随着更多应用的开展,关于iCMS在预测化疗、靶向治疗乃至免疫治疗疗效方面的价值,有望得到更明确的答案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号