综述:基于多组学数据的泛癌症分类计算模型
《Frontiers in Genetics》:Computational models for pan-cancer classification based on multi-omics data
【字体:
大
中
小
】
时间:2025年10月28日
来源:Frontiers in Genetics 2.8
编辑推荐:
肿瘤异质性对癌症治疗构成挑战,现有方法难以有效整合动态时空变化和多组学数据。本文系统综述了基于机器学习(ML)和深度学习(DL)的泛癌分类框架,包括多组学数据源(mRNA、miRNA、lncRNA、CNV、DNA甲基化)及公共数据库(TCGA、GEO、UCSC Xena)的应用。ML方法如SVM、随机森林和神经网络在33类癌症分类中表现优异,但面临高维数据噪声和样本不平衡问题;DL方法如CNN、VAE和GNN通过特征降维和联合建模提升分类精度,但临床可解释性不足。研究指出,半监督学习、多模态融合及不确定性量化是未来突破方向,同时需解决跨队列验证、数据隐私和模型可解释性等临床转化障碍。
肿瘤异质性是癌症治疗中的一大挑战,它限制了临床医生在早期诊断和制定个性化治疗方案方面的能力。癌症作为一种异质性疾病,涉及多种组织和器官,对全球健康构成了重大威胁。尽管在癌症的预防、检测和治疗方面取得了诸多进展,但全球癌症的发病率和死亡率仍呈上升趋势。这一现象突显了早期诊断的重要性,因为癌症的早期发现能够显著提高治疗效果。例如,早期前列腺癌的五年生存率高达98%,而早期乳腺癌的治愈率超过95%。然而,肿瘤异质性和相似性使得早期和准确的诊断以及治疗规划变得复杂。肿瘤异质性体现在肿瘤细胞之间的基因组、转录组和蛋白质组差异,这些差异驱动了肿瘤细胞在形态、增殖和转移潜力上的多样性。此外,即使在同一肿瘤中,癌细胞在发展过程中也表现出表型和形态的异质性。例如,肺癌细胞可以分化为小细胞肺癌、肺鳞状细胞癌和肺腺癌等多种亚型。每种癌症类型和亚型都具有独特的特征,从而导致不同的临床治疗策略,这使得肿瘤异质性成为诊断和治疗的重要挑战。
为了应对这些挑战,癌症基因组图谱(The Cancer Genome Atlas, TCGA)在2012年启动了跨癌种项目(Pan-Cancer Project),整合了超过11,000个肿瘤样本的多组学数据(基因组学、转录组学、蛋白质组学),以识别不同癌症中的共有和独特致癌驱动因素。这一项目旨在描述和识别不同癌症之间的共同点与差异,从而找到可能引发癌症的关键因素,进而指导临床诊断,提高癌症的治愈率。此外,许多研究机构也开展了跨癌种研究,并开发了公开的生物医学数据库,收集来自不同癌症研究的数据。例如,由加州大学圣克鲁兹分校(UCSC)开发和维护的UCSC基因组浏览器,是一个全面的多组学数据库,整合了包括拷贝数变异、甲基化谱、基因和蛋白质表达水平以及突变记录等多种分子数据。该平台还提供了用户友好的数据分析和可视化工具,有助于研究人员高效地进行数据处理和结果解读。
基因表达组数据库(Gene Expression Omnibus, GEO)是由美国国家生物技术信息中心(NCBI)开发和维护的公共存储库,用于存储基因芯片、第二代测序等高通量功能基因组学实验的数据。GEO收录了来自全球超过16,000个实验室和研究团队的175,825个数据集,涵盖了5,069,606个数据样本。该数据库系统地整合了各种癌症相关数据集,包括高通量基因表达谱和微阵列数据。对这些跨癌种数据集的分析,使研究人员能够识别不同癌症类型的独特特征,并探索癌症之间共享或不同的分子模式。这些见解有助于癌症亚型的准确分类和靶向治疗的发展。这些研究努力构成了精准癌症研究的基础,并仍然是当代癌症研究的核心议题。
传统的跨癌种研究主要依赖于聚类分析、网络建模和通路富集等方法来识别组织学上的相似性。然而,这些方法在早期诊断方面的分辨率不足。随着测序技术的迅速发展,高通量测序数据的规模和复杂性呈指数级增长,这需要更先进的计算方法来处理。机器学习(ML)和深度学习(DL)方法现在为分析这些高维数据提供了可扩展的解决方案。例如,Li等人(2017)利用遗传算法(GA)和K最近邻(KNN)分类器对来自31种肿瘤类型的9,096个肿瘤样本的mRNA数据进行了分类,达到了90%的精度。Lyu和Haque(2018)则利用卷积神经网络(CNN)对33种癌症进行了分类,达到了95.59%的精度,并通过引导的Grad-CAM方法识别了生物标志物。总体而言,跨癌种数据集的分类研究对于提高癌症的治愈率至关重要。
在机器学习方法的基础上,研究人员还探索了混合和多算法框架。例如,Khadirnaikar等人(2023)分析了33种不同癌症类型的mRNA、miRNA、DNA甲基化和蛋白质数据,通过将多组学数据连接起来并利用自编码器进行特征降维,成功识别了新的癌症亚型。Elsadek等人(2019)则通过信息增益算法对基因进行选择,并评估了多种分类器,其中逻辑回归(LR)表现最佳,达到了对12种癌症分类的高精度。此外,Liu(2022)利用相关性测试分析了DNA甲基化与基因表达谱之间的关系,并通过XGBoost和SHAP算法确定了五个最佳生物标志物,用于生成随机森林模型以识别癌症亚型。Cheerla和Mamun等人(2017和2019)也提出了两阶段特征选择方法,其中Cheerla团队通过相关性和递归消除方法减少了miRNA特征,最终在21种肿瘤类型中实现了93%的准确率。Mamun的方法则选择用于分类器的共同特征,发现支持向量机(SVM)在八种不同癌症中表现最佳。这些创新突显了机器学习在应对组学复杂性方面的灵活性,同时平衡了特征的精简性和准确性。
随着深度学习的迅速发展,越来越多的研究人员开始将其应用于跨癌种分类问题。例如,Sun等人(2018)提出了GeneCT,这是一个基于人工神经网络(ANN)的框架,利用原始的mRNA表达数据对11种肿瘤类型进行分类,达到了98.2%的准确率,突显了端到端学习在组学分析中的潜力。Cava等人(2023)则在应用主成分分析(PCA)进行数据降维后,部署了神经网络模型,其平均准确率达到84%,而随机森林达到了86%,XGBoost则取得了最高的90%准确率。为了应对特定癌症类型样本量有限的问题,Cho等人(2023)提出了一种元学习方法,通过整合多组学数据(转录组学、蛋白质组学和临床数据)并利用17种癌症的生存信息来创建预测模型。这种方法需要的样本量比传统深度学习模型更少,有效缓解了数据稀缺问题。Mostavi等人(2020)则系统地比较了CNN架构(如Inception模块、残差连接),发现更深层次的网络在33类任务中达到了95.82%的精度,突显了结构优化的重要性。Khalifa等人(2020)通过二进制粒子群优化(BPSO)将mRNA特征从20,531个减少到512个,再进行CNN训练,最终在五种肿瘤类型中达到了96.9%的准确率。此外,Hybrid模型也成为了研究前沿,如Huynh等人(2019)将深度CNN与SVM分类器结合,其中CNN提取高阶特征,SVM执行分类,最终在25种癌症中达到了76.33%的精度。Abdullahi等人(2020)进一步证明了微调预训练的AlexNet模型在mRNA数据上的高效性,达到了五种癌症98.1%的准确率,且计算开销较低。Ye等人(2021)将体细胞突变谱编码为类似热图的“突变图”,使ResNet-50和Inception-v3模型在分类任务中的表现优于传统方法(89.7% vs. SVM的72.3%)。AlShibli和Mathkour(2019)则验证了CNN在拷贝数变异(CNV)分析中的广泛应用,发现六层残差网络(ResCNN6)在六种癌症中达到了86%的准确率,优于标准CNN和VGG-16模型,突显了残差连接在解决梯度消失问题上的有效性。这些创新表明,CNN在多组学整合方面的适应性,通过数据转换、架构优化和跨领域迁移学习得以实现。
在无监督深度学习领域,研究人员也开发了多种方法来应对缺乏标签数据的问题。Rong等人(2022)提出了一种基于新的概率模型的多组学聚类变分自编码器(Mcluster-VAEs),利用聚类算法对多组学数据进行处理,以估计后验癌症亚型。Al Mamun等人(2020)则引入了Concrete Autoencoder(CAE),一种无监督框架,用于识别具有区分性的长链非编码RNA(lncRNA)。CAE在33种肿瘤分类中表现优于监督方法(如Lasso、随机森林、SVM-RFE),达到了93%的准确率。为了应对CAE在多次运行中特征不稳定的问题,Al Mamun等人(2021)进一步提出了多运行CAE(mrCAE),通过聚合100次CAE运行中高频出现的lncRNA,最终确定了一个稳定的69个标记集,用于12种癌症的分类。Zhang等人(2019)开发了OmiVAE,这是一个结合VAE与分类网络的端到端模型,首先将mRNA和DNA甲基化数据压缩为低维嵌入,再利用三层神经网络预测33种肿瘤类型,达到了97.49%的精度。Albaradei等人(2021)设计了MetaCancer,利用卷积VAE从mRNA、miRNA和甲基化数据中提取特征,当这些特征输入深度神经网络(DNN)时,能够对11种癌症进行分类,达到了88.85%的准确率,比仅使用mRNA数据的方法提高了14.2%。Li等人(2024)提出的AVBAE-MODFR,是一个两阶段框架,结合了对抗变分贝叶斯自编码器进行多组学嵌入,并利用双网络特征排序模块进行特征选择。在TCGA跨癌种数据集上测试,AVBAE-MODFR的表现优于四种最先进的方法,突显了其在表示学习和生物标志物发现方面的鲁棒性。与早期的VAE模型(如OmiVAE和MetaCancer)相比,AVBAE-MODFR不仅整合了异质的组学数据,还引入了显式的特征排序机制,从而增强了可解释性,有助于识别具有生物学意义的标志物。这些创新表明,无监督学习在不依赖标签数据的情况下,具有发现稳健生物标志物和整合异质组学数据的潜力。
在评估和讨论部分,我们总结了不同机器学习和深度学习算法在跨癌种多组学分析中的应用。在许多情况下,所提出的方法在与现有算法的对比中表现出可比的性能水平。然而,目前尚未在统一数据集上对不同方法进行全面比较。尽管存在多种方法,但仍缺乏适用于临床实践的标准化框架。一个主要的挑战是研究结果的泛化能力不足,以及确保研究结果的可重复性。为了解决这些问题,需要开发自动且标准化的方法,以便非专家用户能够更便捷地应用这些方法,从而更好地支持临床决策。
机器学习和深度学习在多组学数据中的应用也带来了显著的挑战。由于多组学数据来自不同的平台,其分布可能存在差异,因此在数据整合前必须仔细考虑这一点。此外,整合多个组学数据集可能会产生噪声并引入冗余信息,因此需要设计新的算法来有效处理缺失数据,因为某些样本可能在其中一个组学数据集中缺失。此外,生物医学数据集中的类别不平衡和过拟合问题也是常见的挑战。由不平衡类别组成的训练集可能会影响分类器的准确性,因此需要使用统计技术如欠采样或过采样来解决这一问题。同时,多组学特征的高维性质也可能影响分类器的性能,因为相关特征会引入冗余信息。为了应对这一问题,应采用优化的特征选择算法,以选择一个有限但具有代表性的特征子集。
当前的跨癌种分类方法利用多种数据类型和模型来提高癌症类型的区分能力,并为临床决策提供信息。本综述系统地总结了跨癌种研究中使用的方法、数据集和评估指标,突出了利用基因组学、转录组学和表观基因组学分析肿瘤异质性的进展。我们回顾了当前的跨癌种分类方法,按所使用的模型进行分类,并评估了它们在不同类型数据上的表现。
尽管取得了这些进展,仍然存在一些挑战。许多模型严重依赖于有标签数据,忽略了大量无标签数据的潜在价值。跨癌种研究通常集中在分子特征上,忽视了与诊断和治疗相关的临床关联。此外,数据不平衡和某些肿瘤类型的代表性不足导致模型不稳定。同时,缺乏标准化的基准、有限的跨队列验证以及对不确定性量化和校准的需求仍然是该领域的重要障碍。标准化和可重复的基准数据集的缺失阻碍了不同方法之间的公平比较。我们鼓励研究界建立统一的基准数据集,采用一致的分割协议,例如在TCGA-33 mRNA数据上进行标准化的五折分层交叉验证(CV),并固定预处理步骤(如基因过滤、归一化和批次效应校正),以促进透明和可重复的评估。此外,使用常见的基线模型(如逻辑回归、随机森林和标准深度神经网络)与更先进的架构相结合,将有助于未来研究评估真正的性能提升。数据不平衡,尤其是罕见癌症的代表性不足,进一步限制了模型的泛化能力,因此需要采用数据增强、少样本学习或联邦学习等策略来缓解这一问题。
未来的研究应优先考虑半监督学习(SSL)框架,以利用有标签和无标签数据,从而应对数据稀缺的挑战。在大规模无标签数据集上的自监督预训练可以揭示肿瘤异质性,并增强后续的分类任务。整合多模态数据融合,如结合基因组学、蛋白质组学和正常组织数据,将有助于弥合分子研究与临床应用之间的差距。超越简单的癌症分类,未来的研究必须转向更具临床意义的预测。这包括预测癌症亚型、疾病阶段、患者生存率和对特定治疗的反应,这些预测将直接指导个性化医疗。
在临床转化和伦理方面,开发稳健的跨癌种模型只是第一步;将其转化为有效的临床工具需要解决一系列与转化、泛化和伦理相关的挑战。尽管一个模型可能在单一整理的数据集上表现良好,但其在实际临床实践中的效用取决于其在不同患者群体和医疗体系中的表现。目前,跨癌种模型大多处于研究和开发阶段。目前可用于临床的模型通常是那些整合到已建立平台(如CGC)中,用于二次研究分析的模型,能够对标准化数据集(如TCGA、CPTAC)进行广泛的肿瘤类型分类或基本的生存预测。然而,大多数高性能模型在用于患者护理之前,仍需要经过严格的、多中心的外部验证。为了确保外部有效性,模型必须在来自多个中心的数据上进行评估,以减少单个机构数据集中可能产生的批次效应和获取偏差。批次效应通常源于不同机构之间测序平台或实验室协议的差异,可能会引入混淆信号,使模型误将这些信号视为生物学特征。同样,获取偏差可能在单个中心的训练数据中出现,如果某些罕见癌症亚型或患者群体被过度代表,将限制模型在更广泛患者群体中的泛化能力。
同样重要的是,模型在不同人口统计学群体中的表现必须保持一致。模型的精度不应因患者的种族、性别或年龄而有所不同,以确保公平的临床结果,并防止健康差异的加剧。这些验证工作必须伴随着严格的数据隐私保护和知情同意,特别是考虑到跨癌种研究依赖于大规模且敏感的患者数据。同时,随着深度学习模型复杂性的增加,对模型可解释性的需求也变得尤为关键。可解释的模型使临床医生能够理解模型的预测,并提取有意义的生物标志物,以增强临床决策的可信度。超越简单地识别单个基因,可解释模型能够提供通路级别的归因,将预测与整个生物学过程(如p53信号通路)联系起来,从而提供更具临床意义和生物学价值的见解。
为了在高风险的临床决策中可靠使用,模型不仅需要提供单一的预测,还必须提供不确定性估计,使临床医生能够评估模型预测的置信度。例如,一个良好校准的模型,其预测的概率(如某类肿瘤的概率为90%)能够准确反映其真实正确性。这些可靠性指标对于建立信任和确保这些模型在患者护理中的安全部署至关重要。此外,潜在的监管考量也极为重要;任何用于诊断或预后的模型都必须经过监管机构(如美国食品药品监督管理局,FDA)的严格审查,以确保其安全性、有效性和临床价值。
总之,从跨癌种模型到临床工具的转化过程复杂,需要超越技术性能指标,全面考虑外部验证、成本效益和伦理责任。这种综合视角对于开发不仅在研究环境中准确,而且在现实世界临床应用中稳健、可信且有益的模型至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号