多组学驱动的癌症分子分型AI分类框架:基于153个数据集的大规模基准测试研究
《Scientific Reports》:Multi-omics driven computational framework for cancer molecular subtype classification
【字体:
大
中
小
】
时间:2025年12月20日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对癌症分子分型分类中存在的AI方法可比性、可重复性和泛化性挑战,开发了一个全面的计算框架。研究人员系统评估了35种AI分类器在8种组学模态、20种癌症类型和153个数据集上的性能,确定了最优数据配置(如Gistic2-all-data-genes for CNV、HiSeqV2 for RNASeq)、高性能组学模态(miRNA、RNASeq、CNV)以及可靠分类器(SVM、XGB、ResNet18等)。研究发现深度学习模型在12种癌症中表现优于传统机器学习,为开发标准化、鲁棒的癌症分子分型AI工具提供了关键见解。该研究显著提升了不同AI方法间的可比性,推动了精准肿瘤学发展。
癌症作为全球第二大死因,其复杂性不仅体现在不同类型的癌症之间,更体现在同一癌症内部存在的分子异质性。传统上,癌症根据组织学特征进行分类,但随着分子生物学的发展,研究人员发现即使组织学相似的癌症,在分子水平上也可能存在显著差异,从而导致不同的临床预后和治疗反应。例如,乳腺癌至少包含四种主要分子亚型:Luminal A、Luminal B、HER2富集型和基底样型,这些亚型对治疗的反应和患者预后有着显著差异。
识别癌症分子亚型对于实现精准肿瘤学至关重要。传统的癌症分子分型方法主要依赖于湿实验技术,如基因组和RNA测序、表观基因组分析和蛋白质组学,这些方法虽然能够提供有价值的生物学见解,但存在成本高、耗时长、结果易受实验条件影响等局限性。同时,传统的计算方法如聚类算法和多组学整合也面临着可扩展性差、对噪声敏感以及多组学数据整合能力有限等挑战。
随着人工智能技术在组学、基因组学和蛋白质组学等领域的成功应用,越来越多的研究开始开发基于AI的癌症分子分型预测方法。过去两年中,已有超过60种基于AI的方法被开发出来,其中15项研究主要关注乳腺癌分子分型。然而,现有研究往往聚焦于单一癌症类型,提供的癌症特异性见解难以推广到不同类型的癌症;评估标准不统一,如使用不同的评估指标和预处理策略,限制了不同研究结果之间的可比性和可重复性;组学模态和配置的异质性,以及数据集规模的差异,阻碍了开发标准化、鲁棒的癌症分子分型分类工具。
为了应对这些挑战,一项发表在《Scientific Reports》上的研究提出了一个大规模的基准测试框架,系统评估了35种机器学习和深度学习分类器在153个数据集上的性能,这些数据集覆盖了8种不同的组学模态和20种癌症类型。该研究旨在回答六个关键研究问题,包括:哪些数据配置对准确的癌症分子分型分类至关重要;不同组学模态在多样化癌症中的分类性能一致性如何;是否存在导致预测偏差的特定组学模态;哪些ML和DL分类器在所有组学模态中表现可靠;特定癌症中表现最佳的ML和DL分类器如何比较;以及在独立外部验证数据集上,前述研究问题的结论是否保持一致。
研究人员主要采用了来自癌症基因组图谱(TCGA)的多个组学数据集,包括拷贝数变异(CNV)、基因表达(RNASeq)、microRNA表达(miRNA)、单核苷酸多态性(SNPs)、DNA甲基化(Meth.)、外显子表达(Exon)、蛋白表达(RPPA)和芯片(Array)等8种模态。通过TCGAbiolinks和UCSC Xena浏览器获取数据,确保样本与标签的准确映射。研究排除了样本量少于70的数据集,以保证有足够的样本量进行有意义的分析和可靠的模型评估。
在AI分类器方面,研究评估了35种不同的机器学习和深度学习模型,包括15种ML分类器(如SVM、RF、DT、XGB等)和20种DL分类器(如CNN、ResNet、LSTM、Transformer等)。评估采用5折交叉验证和独立测试集两种策略,使用宏准确率(MACC)、精确率(PR)、召回率(RC)、F1分数和Matthews相关系数(MCC)等指标进行评估,所有指标均采用宏平均方法计算,确保所有癌症分子亚型无论样本大小都能获得同等权重。
关于数据配置对癌症分子分型分类的影响,研究发现不同组学模态的最优数据配置存在差异。在CNV模态中,使用Gistic2-all-data-genes配置的分类器平均MACC为0.624,显著优于Gistic2-all-thresholded的0.568。在RNASeq模态中,HiSeqV2、HiSeqV2-PANCAN和HiSeqV2-percentile三种配置表现出几乎相同的性能,平均MACC分别为0.83、0.84和0.83,表明RNASeq数据的鲁棒性。在蛋白表达(RPPA)方面,未经过处理的RPPA数据优于经过RPPA-RBN标准化处理的数据。在甲基化(Meth.)模态中,HumanMethylation27(HM27)在BRCA和LUAD中的表现均优于HumanMethylation450(HM450),这归因于HM27更高的信噪比和更低的过拟合风险。
对不同组学模态性能的分析表明,miRNA、RNASeq、CNV和Exon通常比Meth.、Array、SNP和RPPA获得更高的宏准确率。具体而言,基于miRNA的分类器在5种癌症(BLCA、BRCA、KIRC、LAML和LIHC)中表现最佳,基于Meth.的分类器在4种癌症(ACC、LUAD、UCEC和STAD)中表现最佳,基于CNV的分类器在4种癌症(KIRP、ESCA、SKCM和KIRP)中表现最佳。相反,基于SNP和RPPA模态的分类器往往因技术噪声而容易出现偏差。
在研究不同AI分类器的性能时,发现传统机器学习模型(SVM、XGB、HGB)在小型和低维数据集上表现最佳,而深度学习模型(ResNet18、CNN、NN、MLP)在大型和高维数据集上表现优异。SVM在所有分类器中实现了最高的平均MACC,NN、ResNet18、DEEPGENE和MLP也表现出强大的性能。深度学习分类器在20种癌症中的12种中显示出优于机器学习分类器的MACC。
研究还发现,分类器的性能受到数据集特征的影响,包括特征数量、样本数量和类别数量。机器学习模型如SVM、HGB、XGB和RF在特征较少、样本量较小和类别标签较少的数据集上表现更佳,而深度学习模型如ResNet18、ResNet34、ResNet101、CNN、RNN和DEEPGENE在高维数据集、大样本量和多类别分类任务中表现更优。
为了验证研究结果的普遍性,团队在Metabric乳腺癌队列上进行了外部验证。结果显示,在TCGA中表现强劲的分类器(如SVM、LR、HGB、NN、CNN和ResNet18)在Metabric队列中继续表现出有竞争力的MACC。基于RNASeq和Meth.的分类器再次显示出优异的预测性能,反映了不同队列和平台之间模态性能的稳定性。
该研究的结论部分强调了几个重要发现。首先,数据配置的选择对癌症分子分型分类有显著影响,Gistic2-all-data-genes(CNV)和HiSeqV2(RNASeq)等配置 consistently yield better performance。其次,miRNA、甲基化(Meth.)、外显子(Exon)、CNV和RNASeq被确定为最有效的组学模态。第三,SVM、XGB和ResNet18等分类器在各自适用的数据环境下表现最为可靠。最后,深度学习分类器在12种癌症中表现出优于机器学习分类器的性能,特别是在处理高维数据和大样本量时。
研究的讨论部分指出了几个未来研究方向。类不平衡仍然是癌症分子分型分类中的一个重要挑战,需要采用分层抽样和数据增强等技术来缓解。模态特异性偏差在SNP和RPPA数据集中尤为明显,需要开发更鲁棒的预处理流程和标准化技术。多组学整合是另一个有前景的方向,开发能够整合多个组学层(如结合CNV、甲基化和RNAseq)的AI模型,有望提供对癌症分子亚型更全面的理解。此外,AI模型的可解释性也是未来需要关注的问题,开发可解释AI(XAI)技术对于增强这些模型的透明度和可信度至关重要。
这项研究通过大规模基准测试为癌症分子分型分类提供了重要见解,为开发标准化、鲁棒且高效的AI驱动癌症分子分型分类流程奠定了基础。研究结果强调了根据特定癌症类型和数据集特征选择适当组学模态和AI分类器的重要性,为精准肿瘤学的发展提供了有价值的指导。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号