大数据驱动的机器学习在肺癌多组学研究中的突破:从分子特征到精准诊疗

【字体: 时间:2025年05月25日 来源:Discover Oncology 2.8

编辑推荐:

  本研究针对肺癌生物学复杂性和患者异质性难题,通过整合TCGA数据库的多组学数据(DNA/RNA/miRNA/蛋白/代谢物),采用StepCox[forward]+RSF等机器学习算法构建诊断、治疗预测及生存模型。研究发现独特分子亚型特征和预后生物标志物(如APCODD1L、CNTNAP4等),结合临床数据显著提升预测精度,为肺癌精准医疗提供新范式。

  

肺癌作为全球死亡率最高的恶性肿瘤之一,其五年生存率长期徘徊在15%左右,分子异质性和治疗抵抗性构成临床重大挑战。传统诊疗模式依赖组织学分型和TNM分期,难以捕捉驱动肿瘤进展的复杂分子网络。随着TCGA等大型数据库的建立,多组学技术为解析肺癌生物学提供了海量数据,但如何从这些高维数据中提取临床可用的生物标志物,成为转化医学的核心瓶颈。

上海健康医学院和合作机构的研究团队在《Discover Oncology》发表了一项开创性研究,通过机器学习整合基因组、转录组、表观组和临床数据,系统解码了肺鳞癌(LUSC)的分子特征。研究团队首先从TCGA获取LUSC患者的miRNA测序、RNA测序、DNA甲基化(Illumina 450k平台)和全外显子数据,采用五折交叉验证的StepCox[forward]+RSF(随机生存森林)模型筛选特征基因,结合ESTIMATE算法评估免疫微环境,并通过单细胞RNA测序(GSM6047623数据集)解析细胞异质性。

功能富集分析
研究意外发现肺鳞癌中角质化(cornification)和表皮分化通路显著激活,免疫组化验证了角化标志物(involucrin、loricrin)在肿瘤组织的过表达。分子功能层面,神经活性配体-受体相互作用和钙信号通路富集,提示跨膜信号传导在肿瘤发生中的关键作用。

机器学习模型构建
通过比较StepCox[forward]+RSF与单纯RSF模型,研究显示前者在训练集和测试集的C-index(一致性指数)分别达到0.82和0.79。特征选择鉴定出APCODD1L、CNTNAP4等6个核心基因,其高表达组患者生存期显著缩短(p<0.05)。

肿瘤微环境解析
CIBERSORT分析显示肿瘤组织中髓系树突细胞和NK细胞浸润减少,而ESTIMATE评分提示基质成分增加。单细胞聚类(t-SNE/UMAP)明确上皮细胞、成纤维细胞和B细胞亚群的转录特征,揭示微环境动态重塑与预后的关联。

讨论与意义
该研究首次系统整合多组学与机器学习预测LUSC预后,其创新性体现在三方面:

  1. 技术层面,建立LASSO-Cox多步筛选框架,克服高维数据过拟合问题;
  2. 生物学层面,发现角化通路异常激活可能驱动鳞癌转分化;
  3. 临床层面,开发基于LINC00628(长链非编码RNA)和LIPK(脂代谢酶)的简易风险评分工具。

局限性包括样本量对罕见亚型覆盖不足,以及跨平台数据批次效应。未来需通过前瞻性队列验证模型泛化能力,并探索靶向肿瘤微环境的联合治疗策略。这项研究为肺癌精准分型和个体化治疗决策提供了重要理论依据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号