编辑推荐:
癌症分类和生存预测对个性化治疗意义重大,但传统方法存在局限。研究人员开展基于转录组特征图谱的癌症类型和生存时间预测研究。结果显示,癌症分类准确率达 91.8%,生存预测准确率提升至 0.75 - 0.91。该研究为癌症分析提供新方法,助力个性化治疗。
癌症,这个人类健康的 “头号大敌”,一直以来都让全球医学界头疼不已。它不仅发病率和死亡率居高不下,而且具有高度的遗传、分子和细胞异质性。就像一个个隐藏在暗处的 “狡猾敌人”,每种癌症甚至同一癌症的不同亚型都有着独特的 “作战方式”,这使得准确地对癌症进行分类和预测患者的生存时间变得异常困难 。传统的癌症分类方法主要依赖临床和组织学特征,然而这种方法就像是拿着一把 “粗糙的尺子”,误差大、预后价值低,难以满足当下精准医疗的需求。随着分子生物学的飞速发展,癌症基因组学逐渐崭露头角,为癌症研究带来了新的曙光。但面对海量复杂的癌症数据,如何高效地提取有价值的信息,依然是一个亟待解决的难题。在这样的背景下,一项发表于《Computers in Biology and Medicine》的研究应运而生,为攻克这些难题带来了新的希望。
为了更准确地对癌症进行分类和预测患者生存时间,推动个性化医疗的发展,研究人员开展了一项基于转录组特征图谱的癌症类型和生存时间预测的研究。研究人员通过一系列复杂而精妙的实验,成功构建了泛癌转录组特征图谱,并利用深度学习模型进行分析。最终得出了令人瞩目的结论:癌症分类的准确率高达 91.8%,生存预测的准确率也提升至 0.75 - 0.91。这一研究成果意义非凡,它为癌症的多组学分析提供了全新的视角和方法,就像是为癌症研究领域打开了一扇通往精准医疗的新大门,有助于医生更好地了解每个患者的癌症特征,制定出更具针对性的个性化治疗方案,从而提高癌症患者的生存率和生活质量。
在这项研究中,研究人员运用了多种关键技术方法。数据方面,从癌症基因组图谱(TCGA)数据库获取了 27 种癌症的转录组数据以及 10 种癌症的生存数据 。数据处理时,采用了去除异常值、标准化等手段对数据进行预处理,运用递归特征消除(RFE)结合 K 近邻(KNN)算法、RFE 结合梯度提升决策树(GBDT)算法进行特征提取。研究中还构建了转录组特征图谱,将一维的组学数据转化为二维矩阵,并进行颜色编码可视化。模型构建上,基于卷积神经网络(CNN)分别构建了癌症分类和生存预测模型,同时利用生成对抗网络(GAN)进行数据增强。
下面来看具体的研究结果。在癌症分类结果方面,研究人员将数据集进行多次划分并分别训练和测试模型。结果显示,模型在不同癌症类型的分类中表现出色。以 F1 评分作为评估指标,在急性髓系白血病(AML)、低级别胶质瘤(LGG)等多种癌症分类中,分类算法的精度达到 0.98 。与其他机器学习模型相比,该模型在 27 种癌症类型的分类中具有明显优势,尤其在一些较难分类的癌症,如肉瘤(SARC)、肺鳞状细胞癌(LUSC)等的分类上,展现出更高的准确性和稳定性。在召回率方面,部分癌症类型,如 AML 和胶质母细胞瘤(GBM),召回率分别达到 1.00 和 0.98,但某些癌症,如直肠腺癌(READ),召回率较低,这意味着还需要更多训练数据来保证其分类的准确性。
基于特征图谱可视化的基因功能分析,研究人员获取了 27 种癌症的转录组特征图谱,并通过比较分析,从 14 种癌症类型中鉴定出 31 个共同的差异表达基因,如膜联蛋白 A5(ANXA5)、肌动蛋白 β(ACTB)等。利用这些基因构建相互作用网络,发现 ANXA5 和 ACTB 是与癌症分类密切相关的关键基因。
在基于特征图谱可视化的生存分析中,研究人员选取了 10 种癌症进行生存预测。由于生存数据标记的病例数量有限,直接使用特征图谱结合 CNN 进行预测的效果并不理想。通过 GAN 对训练数据进行扩展后,预测结果有了显著提升。进一步将癌症生存数据分为低生存组和高生存组,利用 Cox 模型分析发现,不同癌症亚型患者的生存时间存在显著差异,特定基因在预测患者预后方面具有重要的临床意义。
在研究结论和讨论部分,该研究构建的癌症分类和生存预测模型,在处理多癌症数据集和生存预测任务上,相较于传统方法展现出了明显的优势,具有很大的临床应用潜力。研究中创新的特征图谱构建方法,包括特征基因的蛇形排列和颜色编码可视化,有助于更好地理解癌症的复杂性和基因间的相互作用。通过调整学习率等手段优化深度学习模型,虽然取得了较好的效果,但未来还可探索更多超参数优化技术来进一步提升模型性能。GAN 在数据增强方面发挥了重要作用,显著提高了生存预测的分类准确率,但在临床应用中的效果还需进一步验证。此外,研究还鉴定出 ANXA5 和 ACTB 等潜在的生物标志物,为癌症治疗提供了新的靶点。不过,该研究也存在一定的局限性,如缺乏对深度学习预测模型的外部验证。总体而言,这项研究为癌症研究提供了新的思路和方法,为未来癌症的精准诊断和治疗奠定了坚实的基础。