
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的特发性肺纤维化与肺鳞状细胞癌分子网络差异解析及其临床意义
【字体: 大 中 小 】 时间:2025年06月20日 来源:Computational Biology and Chemistry 2.6
编辑推荐:
研究人员针对特发性肺纤维化(IPF)患者易并发肺鳞癌(SCC)但机制不明的临床难题,通过整合7个公共RNA-Seq数据集,构建了准确率达0.7855(kappa值)的机器学习分类模型,鉴定出VCX2、TMPRSS11B等11个差异表达基因(DEGs),并发现BHLHE40、MYC等4个转录因子(TFs)的体细胞突变调控网络。该研究为理解IPF相关SCC发病机制提供了新视角,对预防IPF患者癌症并发症具有重要临床价值。
在呼吸系统疾病领域,特发性肺纤维化(IPF)与肺鳞状细胞癌(SCC)的"致命纠缠"始终是临床难题。数据显示,IPF患者发生肺癌的风险是普通人群的7-14倍,其中SCC占比最高。更严峻的是,同时罹患这两种疾病的患者预后极差,术后急性加重死亡率高达35.6-43.9%。然而受限于临床样本获取的伦理难题和病理机制的复杂性,这两种疾病间的分子关联始终如同"黑箱"。
面对这一困境,日本的研究团队另辟蹊径,创新性地采用机器学习(ML)方法挖掘公共数据库中的RNA测序(RNA-Seq)数据。他们整合来自美国、韩国等地的7个数据集,涵盖168例IPF和168例SCC样本,通过随机重启技术构建高精度分类模型,最终在《Computational Biology and Chemistry》发表了这项突破性研究。
研究团队首先采用ComBat_seq算法进行批次效应校正,运用SMOTE技术解决数据不平衡问题。随后基于k最近邻(knn)、支持向量机(SVM)和极限梯度提升(xgbTree)等5种算法构建分类模型,通过2000次随机重启优化参数。为探究分子机制,团队进一步结合体细胞突变分析和ENCODE数据库的染色质免疫沉淀测序(ChIP-Seq)数据,构建了TF-靶基因调控网络。
研究结果揭示:经过批次校正的数据在UMAP可视化中呈现清晰的疾病分类特征。性能评估显示xgbTree模型表现最优(kappa=0.7855),其鉴定的20个关键特征基因中,SCARA5、PLA2G2A等11个基因在两种疾病中呈现显著差异表达。引人注目的是,体细胞突变分析发现BHLHE40、MYC、STAT1和E2F4这4个TF在>50%的SCC样本中存在突变,且通过ChIP-Seq证实它们共同调控11个下游靶基因。其中PLA2G2A在IPF中高表达而在SCC中受抑,可能与TP53等抑癌基因突变相关;HOXD11和TMPRSS11B等促癌基因则在SCC中特异性高表达。
分子网络分析显示,这4个突变TF与11个下游基因构成了IPF-SCC转化的关键调控轴。特别值得关注的是,MYC的突变集中在HLH结构域,STAT1突变位于STAT_alpha功能域,这些关键位点的变异可能通过改变TF活性影响下游致癌通路。临床关联分析进一步发现,PRUNE2、PZP等8个基因的表达水平与肿瘤分期显著相关,提示其作为生物标志物的潜力。
这项研究首次通过机器学习揭示了IPF与SCC间的分子网络差异,不仅证实了已知的PLA2G2A等基因的双向调控模式,更发现了由4个突变TF和11个效应基因组成的新型分子网络。从临床转化角度看,这些发现为开发IPF患者的SCC风险预测模型提供了分子靶点,也为理解两种疾病的共发病机制开辟了新视角。研究者特别指出,未来整合表观遗传等多组学数据,有望进一步揭示IPF-SCC转化的"全景式"分子图谱。
尽管基于RNA-Seq的突变检测存在一定局限性,但该研究创新性地将机器学习与分子网络分析相结合,为解决罕见病研究的样本瓶颈提供了范式。随着更多临床验证的开展,这些发现或将成为阻止IPF向SCC恶变的"分子路标",最终实现从机制研究到临床预防的转化突破。
生物通微信公众号
知名企业招聘