编辑推荐:
肺癌分期诊断面临困境,常需痛苦且昂贵的活检。研究人员利用 TCGA-LUAD 数据集,结合多种算法与技术开展支气管源性癌分期生物标志物研究。结果显示,能 100% 区分健康与癌样本,77% 区分癌分期,并确定候选生物标志物,为无创诊断带来希望。
在医学领域,肺癌如同一个隐匿的杀手,严重威胁着人类的健康。其中,支气管源性癌作为肺癌的常见亚型,在全球范围内广泛分布且极具侵袭性。非小细胞肺癌(NSCLC)的预后与疾病分期紧密相关,早期诊断能显著提高患者的生存率。然而,早期肺癌患者往往症状不明显,容易错过最佳治疗时机。同时,肿瘤转移的高破坏性更是导致肺癌死亡率居高不下的重要原因。传统的肺癌分期诊断主要依赖手术活检获取肿瘤组织进行分析,这种方式不仅给患者带来痛苦,还增加了医疗成本。因此,寻找一种无创、准确的肺癌分期诊断方法迫在眉睫。
在这样的背景下,来自伊朗多所大学的研究人员展开了一项极具意义的研究。他们的研究成果发表在《Discover Oncology》杂志上。该研究旨在利用生物信息学和机器学习技术,通过分析基因表达数据,寻找能够无创检测支气管源性癌及其不同分期的生物标志物,从而避免在诊断过程中进行手术干预。
为了实现这一目标,研究人员运用了多种关键技术方法。首先,他们从癌症基因组图谱(TCGA)数据库中下载了与肺癌相关的 RNA 测序(RNA-seq)样本数据,这些样本包含了健康和癌性肺组织的基因表达信息。接着,对数据进行归一化和冗余数据去除等预处理操作,并将其整理成矩阵形式。然后,研究人员运用了八种元启发式算法进行特征选择,这些算法包括与群体智能相关的人工蜂群算法(ABC)和蚁群优化算法(ACO) 、与自然现象相关的水循环算法(WCA)和模拟退火算法(SA) 、受人类行为启发的和声搜索算法(HS)和基于教学学习的优化算法(TLBO),以及基于进化优化算法的差分进化算法(DE)和遗传算法(GA)。同时,结合四种分类方法(朴素贝叶斯(NB)、支持向量机(SVM)、K 近邻算法(KNN)和决策树(DT))和两种数据融合技术,以优化检测性能。
研究结果令人振奋:
- 健康与癌样本区分:研究人员利用上述方法,成功地以 100% 的准确率区分了健康样本和癌样本,超越了以往 97% 准确率的方法。在区分健康样本与不同分期肺癌样本时,如健康与 I 期、健康与 II 期、健康与 III-IV 期,通过特征选择和分类算法,结合 Borda count 决策融合方法,各分类器表现出色,SVM 在多数情况下准确率达到 100%,其他分类器也有较高准确率。
- 不同癌分期区分:尽管区分不同癌分期更具挑战性,但研究仍取得了约 77% 的准确率。在对比 I 期与 II 期、I 期与 III-IV 期、II 期与 III-IV 期时,通过特征选择和分类算法评估,发现区分距离较近的分期(如 I 期和 II 期、II 期和 III-IV 期)比区分距离较远的分期(如 I 期和 III-IV 期)准确率更低 。研究人员还使用数据相关性等方法进一步分析,结果表明该研究中基于元启发式算法的特征选择方法优于其他方法。
- 候选生物标志物确定:通过基因富集方法,研究人员分别确定了 I 期、II 期、III 期和 IV 期的 5 个、7 个、16 个和若干个诊断生物标志物候选基因。这些基因在不同癌症分期中发挥着重要作用,通过通路富集分析,发现它们参与了多种与肺癌相关的生物途径,如细胞周期、p53 信号通路等。
在研究结论和讨论部分,该研究成果具有重要意义。一方面,研究证明了整合生物信息学、基因集富集和生物途径分析,能够实现支气管源性癌分期的无创诊断。这为开发替代传统侵入性分期系统的方法提供了可能,有望改善患者的治疗效果,降低医疗成本。另一方面,研究中确定的生物标志物,部分与先前研究报道的其他癌症生物标志物相关,部分为新发现的与支气管源性癌相关的生物标志物。这些发现不仅有助于进一步理解支气管源性癌的发生发展机制,还为肺癌的早期检测和个性化治疗策略的制定提供了重要依据。
总的来说,这项研究为肺癌的无创诊断开辟了新的道路,尽管研究还存在一些局限性,如相关研究文章稀缺、部分算法参数解释不清、数据样本多样性有限等,但它无疑为后续研究指明了方向,期待未来能在该领域取得更多突破,为肺癌患者带来新的希望。