基于机器学习算法筛选胶质瘤易感SNPs及风险预测模型的构建

【字体: 时间:2025年06月06日 来源:BMC Neurology 2.2

编辑推荐:

  本研究针对胶质瘤遗传易感性预测难题,通过LASSO回归、SVM-RFE算法和似然比检验,从59个SNPs中筛选出15个关键位点(如rs3950296和rs1317082),构建了AUC达0.795的诺莫图(Nomogram)预测模型。该研究为汉族人群胶质瘤早期风险评估提供了新型分子标志物和量化工具。

  

胶质瘤作为最常见的原发性恶性脑肿瘤,占颅内恶性肿瘤的80%,尽管手术和治疗方法不断改进,高级别胶质瘤的治疗成功率和生存率仍然堪忧。这种疾病的发病机制复杂,涉及遗传与环境因素的交互作用。虽然电离辐射已被确认为明确的环境风险因素,但家族聚集性研究显示,胶质瘤患者一级亲属的患病风险增加两倍,强烈提示遗传因素的关键作用。近年来,全基因组关联研究(GWAS)已鉴定出多个与胶质瘤相关的遗传位点,但这些发现多基于欧洲人群,中国汉族人群的相关研究仍显不足。此外,如何从海量SNPs中筛选出最具预测价值的位点,建立适用于临床的风险评估模型,仍是亟待解决的科学问题。

针对这一挑战,西安市中心医院神经外科胡明俊团队联合西北大学生命科学学院研究人员,在《BMC Neurology》发表了一项创新性研究。该团队采用机器学习算法结合传统统计方法,系统筛选胶质瘤易感SNPs,并构建了首个针对中国汉族人群的胶质瘤风险预测模型。研究纳入了310例经WHO 2007标准确诊的胶质瘤患者和304例健康对照,通过Agena MassARRAY平台对35个基因中的59个SNPs进行基因分型。

研究主要采用了三种关键技术方法:1) LASSO回归(通过glmnet包实现)用于特征选择和模型简化;2) SVM-RFE算法(基于caret包)进行SNPs重要性排序;3) 似然比检验(使用stats包)评估SNPs与疾病风险的统计学关联。样本来源于西安胸科医院神经外科确诊患者和同期健康体检人群,随机分为训练集(217例患者/213例对照)和验证集(93例患者/91例对照)。

样本特征
研究人群平均年龄41.63±17.07岁(病例组)和43.77±13.51岁(对照组),性别分布均衡(p>0.05)。病例组包含197例星形细胞瘤(63.6%)、19例胶质母细胞瘤(6.1%)等亚型,66.1%为WHO I-II级。

SNP筛选结果
LASSO回归(λ=0.022)筛选出23个SNPs,SVM-RFE算法(准确率0.6845)确定15个关键位点,两者重叠12个SNPs。似然比检验进一步鉴定出9个显著关联位点(p<0.05)。最终整合获得15个hub SNPs,涉及LRRIQ4、PPARD、NDRG1等13个基因。功能注释显示这些SNPs可能通过启动子组蛋白标记、增强子活性等机制调控基因表达。

模型验证
基于15个SNPs构建的诺莫图在训练集和验证集分别达到AUC=0.7950和0.7433,显示良好预测效能。其中rs3950296(MYNN基因)和rs1317082(MYNN基因)贡献度最高,可能与端粒维持机制相关。校准曲线证实模型拟合度良好。

该研究创新性地将机器学习与传统统计方法相结合,首次建立了针对中国汉族人群的胶质瘤遗传风险评估体系。发现的15个hub SNPs不仅丰富了胶质瘤易感基因图谱,其构建的诺莫图更为临床早期筛查提供了量化工具。特别值得注意的是,位于MYNN基因的两个位点rs3950296和rs1317082展现出最强的预测价值,这与既往关于端粒遗传学在胶质瘤中作用的研究相呼应。研究局限性包括样本地理来源相对集中、样本量有限等,未来需要通过多中心大样本进一步验证。这些发现为理解胶质瘤发病的分子机制提供了新视角,也为个体化风险评估和精准预防策略制定奠定了重要基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号