
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于堆叠深度学习集成模型的多组学癌症分类研究:开发与验证
【字体: 大 中 小 】 时间:2025年08月16日 来源:JMIR Bioinformatics and Biotechnology CS2.9
编辑推荐:
为解决癌症早期精准诊断难题,Amani Ameen团队创新性整合RNA测序(RNA-seq)、体细胞突变和DNA甲基化数据,构建了包含SVM、KNN、ANN、CNN和RF的堆叠集成模型,在沙特五种高发癌症分类中实现98%准确率,显著优于单组学分析,为临床多组学诊断提供了新范式。
癌症是全球疾病负担的重要成因,早期准确诊断对治疗至关重要。然而传统单组学分析方法存在局限性:RNA测序(RNA-seq)虽能反映基因表达动态,但无法捕捉表观遗传修饰;DNA甲基化虽与癌症发生密切相关,但单独使用分类精度有限;体细胞突变数据稀疏性导致模型性能骤降至81%。更严峻的是,高维度、小样本和类别不平衡这三大技术瓶颈严重制约着多组学数据的临床应用。
为突破这些限制,沙特阿卜杜勒阿齐兹国王大学(King Abdulaziz University)的研究团队Amani Ameen、Nofe Alganmi和Nada Bajnaid开发了创新的堆叠深度学习集成框架。这项发表在《JMIR Bioinformatics and Biotechnology》的研究,通过整合五种主流算法(支持向量机SVM、k近邻KNN、人工神经网络ANN、卷积神经网络CNN和随机森林RF),首次在沙特高发的乳腺癌(BRCA)、结直肠癌(COAD)、甲状腺癌(THCA)、非霍奇金淋巴瘤(NHL)和子宫体癌(UCEC)五种癌症中实现了多组学协同分类,准确率高达98%,较单组学最高提升17个百分点。
研究采用三大关键技术:首先从TCGA和LinkedOmics获取多组学数据后,使用转录本每百万(TPM)标准化处理RNA-seq数据;其次通过自动编码器(Autoencoder)进行特征降维,其五层稠密网络结构配合0.3的Dropout率有效抑制过拟合;最后采用下采样策略平衡数据集,将最小类别NHL的481例作为基准,其他类别同比例抽样。堆叠模型的元模型采用双层ANN架构,第一层32个ReLU单元配合50% Dropout,最终通过softmax输出五分类结果。
研究结果部分显示:在性能评估指标方面,模型宏平均F1-score达0.98,混淆矩阵对角线正确率91.67%-100%,ROC曲线下面积(AUC)0.90-1。多组学整合分析章节揭示,RNA-seq和甲基化单独准确率为96%,而体细胞突变仅81%,但三者融合后性能提升显著。与现有技术对比显示,该模型较Koh等2024年研究的AUC 0.96和Mohamed的97%准确率更具优势。
讨论部分强调,该研究的突破性在于:一是首次验证了体细胞突变数据在多组学整合中的增益效应,尽管其单独性能较差;二是通过自动编码器和下采样组合策略,成功解决了高维度和小样本的协同难题;三是计算效率优化使得模型推理时间满足临床实时决策需求。但研究也存在局限性,包括缺乏临床数据融合和外部验证队列。
这项研究为多组学癌症诊断树立了新标杆,其提出的"特征降维-数据平衡-异质模型集成"技术路线,不仅适用于癌症分类,更为其他复杂疾病的分子分型提供了可借鉴的范式。未来整合临床数据和扩展至更多癌种,有望推动精准医疗从实验室向临床实践的转化。
生物通微信公众号
知名企业招聘