
-
生物通官微
陪你抓住生命科技
跳动的脉搏
转录组学联合混合机器学习构建鼻咽癌高精度诊断模型及关键生物标志物RCN1的发现
【字体: 大 中 小 】 时间:2025年06月13日 来源:Discover Oncology 2.8
编辑推荐:
本研究通过整合7个鼻咽癌(NPC)转录组数据集,运用ComBat批次校正和12种机器学习(ML)算法构建了113种诊断模型,最终筛选出Stepglm[both]-RF和glmBoost-RF两种高精度模型(AUC达0.999-1.000),并鉴定出钙结合蛋白RCN1作为兼具诊断(AUC=0.953)和预后价值的双功能标志物。研究揭示了NPC免疫微环境中M1巨噬细胞浸润与记忆B细胞缺失的特征,为早期诊断提供了可扩展的计算框架。
背景
鼻咽癌(NPC)具有显著的地域分布特征,在东南亚和中国南方高发,其发生发展与EB病毒(EBV)感染、遗传易感性和环境致癌物暴露密切相关。尽管放疗和放化疗技术进步显著改善了患者预后,但局部晚期NPC的5年总生存率仍徘徊在60%左右。目前临床诊断主要依赖EBV DNA检测,但其敏感性和特异性不足,尤其在早期诊断中存在明显局限。
方法
研究整合了7个NPC转录组数据集(GSE12452、GSE40290、GSE53819、GSE64634作为训练集;GSE13597、GSE34573、GSE61218作为验证集),采用ComBat算法进行批次效应校正。通过差异表达分析筛选出293个差异表达基因(DEGs),并系统组合12种机器学习算法(包括Stepglm、glmBoost和随机森林RF等)构建了113种诊断模型。通过CIBERSORT分析免疫浸润特征,并利用GSEA/GSVA进行功能富集分析。
结果
Stepglm[both]-RF模型在训练集中AUC达0.999,在外部验证集GSE61218和GSE34573中AUC均为1.000,在GSE13597中AUC为0.960;glmBoost-RF模型表现出相当的性能,训练集AUC为1.000,验证集AUC介于0.947-1.000。单基因分析发现RCN1具有显著的诊断价值(AUC=0.953),其高表达与头颈鳞癌(HNSCC)不良预后显著相关。免疫分析显示NPC组织中M1巨噬细胞显著富集,而记忆B细胞明显减少。功能富集提示RCN1参与细胞周期调控和免疫相关通路。
讨论
该研究建立的两种机器学习模型具有特征基因少、准确度高和泛化能力强的特点,为NPC早期诊断提供了新工具。RCN1作为内质网钙结合蛋白,通过调节钙稳态和ER应激反应参与NPC进展,并与M2型肿瘤相关巨噬细胞(TAMs)极化相关。免疫微环境分析揭示了NPC特有的M1巨噬细胞优势浸润和记忆B细胞缺失模式,这与EBV介导的免疫逃逸机制一致。
局限性
研究基于回顾性数据,需前瞻性队列验证;部分验证集样本量较小可能导致性能高估;免疫细胞分析依赖计算反卷积而非单细胞测序。
结论
该工作通过多组学整合和机器学习筛选出高性能NPC诊断模型和关键生物标志物RCN1,为早期检测提供了新策略,同时揭示了NPC免疫微环境特征和RCN1的分子机制,为后续转化研究奠定基础。
生物通微信公众号
知名企业招聘