
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大数据驱动的机器学习在肺癌多组学研究中的突破:从分子特征到精准诊疗
【字体: 大 中 小 】 时间:2025年05月25日 来源:Discover Oncology 2.8
编辑推荐:
本研究针对肺癌生物学复杂性和患者异质性难题,通过整合TCGA数据库的多组学数据(DNA/RNA/miRNA/蛋白/代谢物),采用StepCox[forward]+RSF等机器学习算法构建诊断、治疗预测及生存模型。研究发现独特分子亚型特征和预后生物标志物(如APCODD1L、CNTNAP4等),结合临床数据显著提升预测精度,为肺癌精准医疗提供新范式。
肺癌作为全球死亡率最高的恶性肿瘤之一,其五年生存率长期徘徊在15%左右,分子异质性和治疗抵抗性构成临床重大挑战。传统诊疗模式依赖组织学分型和TNM分期,难以捕捉驱动肿瘤进展的复杂分子网络。随着TCGA等大型数据库的建立,多组学技术为解析肺癌生物学提供了海量数据,但如何从这些高维数据中提取临床可用的生物标志物,成为转化医学的核心瓶颈。
上海健康医学院和合作机构的研究团队在《Discover Oncology》发表了一项开创性研究,通过机器学习整合基因组、转录组、表观组和临床数据,系统解码了肺鳞癌(LUSC)的分子特征。研究团队首先从TCGA获取LUSC患者的miRNA测序、RNA测序、DNA甲基化(Illumina 450k平台)和全外显子数据,采用五折交叉验证的StepCox[forward]+RSF(随机生存森林)模型筛选特征基因,结合ESTIMATE算法评估免疫微环境,并通过单细胞RNA测序(GSM6047623数据集)解析细胞异质性。
功能富集分析
研究意外发现肺鳞癌中角质化(cornification)和表皮分化通路显著激活,免疫组化验证了角化标志物(involucrin、loricrin)在肿瘤组织的过表达。分子功能层面,神经活性配体-受体相互作用和钙信号通路富集,提示跨膜信号传导在肿瘤发生中的关键作用。
机器学习模型构建
通过比较StepCox[forward]+RSF与单纯RSF模型,研究显示前者在训练集和测试集的C-index(一致性指数)分别达到0.82和0.79。特征选择鉴定出APCODD1L、CNTNAP4等6个核心基因,其高表达组患者生存期显著缩短(p<0.05)。
肿瘤微环境解析
CIBERSORT分析显示肿瘤组织中髓系树突细胞和NK细胞浸润减少,而ESTIMATE评分提示基质成分增加。单细胞聚类(t-SNE/UMAP)明确上皮细胞、成纤维细胞和B细胞亚群的转录特征,揭示微环境动态重塑与预后的关联。
讨论与意义
该研究首次系统整合多组学与机器学习预测LUSC预后,其创新性体现在三方面:
局限性包括样本量对罕见亚型覆盖不足,以及跨平台数据批次效应。未来需通过前瞻性队列验证模型泛化能力,并探索靶向肿瘤微环境的联合治疗策略。这项研究为肺癌精准分型和个体化治疗决策提供了重要理论依据。
生物通微信公众号
知名企业招聘