基因特征机器学习模型:精准预测腰椎间盘突出风险的新希望

【字体: 时间:2025年05月05日 来源:Pain and Therapy 4.1

编辑推荐:

  腰椎间盘突出(LPD)是腰痛的主要原因,严重影响患者生活。研究人员基于疼痛相关基因特征构建机器学习模型预测 LPD 风险。结果显示随机森林模型表现最佳,能较准确识别高风险患者,有望用于临床辅助诊断和预防。

  在生活中,腰痛是一种十分常见的困扰,而腰椎间盘突出(Lumbar Prolapsed Disc,LPD)正是导致腰痛的主要 “元凶” 之一。它不仅让患者承受着身体上的疼痛,还对全球的医疗体系造成了沉重的负担。目前,现有的诊断方法在早期识别 LPD 高风险个体方面存在明显不足,这使得预防策略难以有效实施,个性化治疗方案也无法精准制定。
为了攻克这一难题,香港大学李嘉诚医学院临床医学学院麻醉学系的研究人员 Fengfeng Wang、Fei Meng 和 Stanley Sau Ching Wong 开展了一项极具意义的研究。他们致力于开发基于关键疼痛相关基因特征的机器学习模型,以此来识别 LPD 高风险患者。研究成果发表在《Pain and Therapy》杂志上。

研究人员主要运用了以下几种关键技术方法:首先,从公共基因表达数据库(Gene Expression Omnibus,GEO)获取 LPD 患者外周血转录组数据,其中 GSE150408 数据集用于模型训练,GSE124272 数据集用于测试。接着,针对 23 个与慢性背痛和广泛疼痛综合征相关的基因,采用递归特征消除(Recursive Feature Elimination,RFE)结合留一法交叉验证(Leave-One-Out Cross-Validation,LOOCV)进行特征选择。最后,构建支持向量机(Support Vector Machine,SVM)、随机森林、K 近邻(K-Nearest Neighbours,KNN)、逻辑回归和极端梯度提升(Extreme Gradient Boosting,XGBoost)等多种机器学习模型,并通过网格搜索和五折交叉验证进行超参数调优 。

下面来看具体的研究结果:

  • 基因特征选择:研究人员从训练和测试数据集中提取 23 个疼痛相关基因的表达谱,并通过添加高斯噪声生成模拟数据。利用 RFE 技术,最终确定了 8 个关键基因特征,分别为 MMP9、IL6、ACAN、IL1RN、MMP3、THBS2、COL11A2 和 CILP。其中,MMP9 的重要性得分最高。进一步分析发现,这些基因在 LPD 患者和健康对照组之间存在显著差异表达,且其表达水平与 LPD 组有很强的关联。
  • 模型性能与比较:在多个评估指标下,不同模型表现各异。随机森林模型在准确率(0.80,95% CI 0.73 - 0.85)、F1 评分(0.83,95% CI 0.77 - 0.88)和马修斯相关系数(Matthews Correlation Coefficient,MCC,0.64,95% CI 0.53 - 0.76)方面表现最佳;逻辑回归模型的曲线下面积(Area Under the Curve,AUC,0.89,95% CI 0.83 - 0.94)最高 。综合来看,随机森林模型在平衡精准度和召回率方面表现出色,能提供可靠的预测性能。

研究结论和讨论部分指出,该研究成功开发了基于基因特征的机器学习预测模型,为识别 LPD 高风险个体提供了有效手段。这一成果对于科研人员而言,提供了全新的研究框架,有助于深入探究 LPD 潜在的遗传机制;对于临床医生来说,这些预测模型有望融入临床诊断工具,实现对高风险患者的早期识别,从而实施预防措施和个性化管理策略,减轻患者的慢性疼痛,提高生活质量。尽管研究存在样本量较小、依赖单一数据集评估模型性能以及缺乏原始数据的人口统计学和临床信息等局限性,但该研究首次探索了基于特定疼痛相关基因特征的机器学习模型预测 LPD 风险的可行性,为后续研究指明了方向,具有重要的科学价值和临床应用潜力 。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号