编辑推荐:
肿瘤未知原发灶(TUO)严重影响患者生存,现有检测方法存在局限。研究人员开发基于 DNA 甲基化的随机森林机器学习 TUO 甲基化分类器。该分类器识别准确率高,能分 46 类,为 TUO 诊断带来新突破。
在医学的神秘领域中,肿瘤一直是威胁人类健康的 “恶魔”,而肿瘤未知原发灶(Tumors of unknown origin,TUO)更是其中的 “神秘杀手”。这类肿瘤在患者体内肆意生长,却难以找到其最初的发源地。它们约占所有转移性癌症诊断的 3 - 6%,患者预后极差,中位生存期不足一年。目前,常用的原发灶检测方法,如免疫组化(Immunohistochemistry,IHC),虽然能达到 75% 的准确率,但仍有提升空间;突变谱分析效果参差不齐;RNA 表达检测虽准确率约 95%,但成本高昂,且每个样本测序成本高。在这样的困境下,寻找新的检测方法迫在眉睫。
美国西北大学费恩伯格医学院(Feinberg School of Medicine, Northwestern University)的研究人员勇敢地迎接挑战,开展了一项极具意义的研究。他们利用大量原发性和转移性肿瘤样本,开发出一种随机森林机器学习 TUO 甲基化分类器。这一研究成果意义非凡,该分类器在识别肿瘤原发灶方面表现出色,无论是公开可用样本还是内部验证样本,都能准确分类,97% 的样本分类正确,85% 的样本获得高概率评分(≥0.9)。而且,借助病理学家的专业知识和 t-SNE 可视化技术,它能将样本分配到 46 个不同的原发部位 / 疾病类别,还揭示了多个有待探索的未知类别,为肿瘤的精准诊断和治疗带来了新希望。该研究成果发表在《npj Precision Oncology》杂志上。
研究人员在研究过程中,采用了多种关键技术方法。首先,从 The Cancer Genome Atlas(TCGA)、Gene Expression Omnibus(GEO)和内部样本收集甲基化数据,构建数据集。然后,运用 R 语言进行数据处理,包括信号强度提取、标准化、探针筛选等。利用主成分分析和 t-SNE 进行数据可视化,辅助确定类标签。最后,使用随机森林算法构建分类器,并通过交叉验证和校准评估其性能。
研究结果
- TUO 甲基化特征的表征:研究人员收集了来自多个原发部位的甲基化数据,共 6323 个样本,其中 3690 个用于模型训练,2633 个用于验证。通过病理学家的组织诊断和无监督聚类,将训练样本分为 16 个超类,进一步细分为 46 个类。t-SNE 可视化显示,不同原发部位的肿瘤样本能被分离成不同的簇,部分簇对应临床实体,还有一些簇的临床差异不明显。此外,研究还发现了一些未知临床意义的类别,同时纳入 GEO 和内部临床样本创建了 TCGA 中没有的新类别。
- 分类器的开发和性能:基于随机森林机器学习算法,研究人员开发了 TUO 分类器。通过筛选 10000 个甲基化探针构建模型,其中 11 个最重要的探针位于 12 号染色体,对应 IFFO1 和 MIR141 两个基因。该分类器在交叉验证中表现优异,原始分数和校准分数的 AUC 分别为 0.991 和 0.994。在验证样本中,96.7% 的样本分类正确,85.2% 的样本匹配分数高于 0.9,平均分数为 0.954。分类器对原发性部位样本的分类性能优于转移性部位样本,不同原发部位的样本分类性能存在差异,但所有超类的样本分类正确率均大于 90%。此外,正确分类且匹配分数高的样本肿瘤纯度更高。
- 新类别的表征:为了深入了解未知临床意义的类别以及拆分 TCGA 项目对分类的影响,研究人员比较了不同分组样本的总生存期和突变谱。结果发现,TUO 分类器中的类别与更通用的 TCGA 项目相比,在总生存期上存在差异,但无统计学意义。不过,突变谱分析显示出更显著的差异,在多个类别比较中都观察到了明显的突变差异。
- 临床案例:研究人员选取了两个临床案例来展示分类器的实用性。一位 69 岁男性患者出现进行性肢体无力,影像学发现右顶叶病变,免疫组化未能明确肿瘤起源,但甲基化分类表明原发灶为肺腺癌,后续检查证实了这一结果。另一位 46 岁女性患者因顽固性恶心呕吐就诊,有乳腺癌病史,活检发现胃部和十二指肠有低分化癌,甲基化检测支持乳腺癌为原发灶。
研究结论与讨论
这项研究开发的基于 DNA 甲基化的分类器,为 TUO 的诊断提供了一种高度准确且实用的工具。与以往的模型相比,它具有显著优势,不仅增加了新的类别,有助于更精准地识别肿瘤原发灶,还能通过估计分类器分数评估样本分类的可信度。尽管肿瘤纯度会影响分类器分数,但对分类准确性影响不大,且该分类器在低肿瘤纯度下仍能保持较高性能。目前,该分类器已在实验室使用约 1 年,运行成本低。然而,研究也存在一些局限性,如部分临床相关肿瘤类型未包含在分类器中,对转移性样本的准确分类可能受限于训练集中原发性肿瘤的数量。未来研究可增加公开的转移性样本数量,并探索使用替代样本类型,如液体活检,以进一步提升分类器的性能和临床应用价值。总体而言,这一研究成果为 TUO 患者的诊疗带来了新的曙光,有望改善患者的预后和生存质量。