机器学习算法与逻辑回归在噪声性听力损失预测中的较量及 SNP 位点探索:开启精准预防新征程

【字体: 时间:2025年05月03日 来源:Scientific Reports 3.8

编辑推荐:

  为解决噪声性听力损失(NIHL)早期精准预测难题,研究人员对比传统逻辑回归(LR)与七种机器学习(ML)算法在 NIHL 预测中的性能,探究相关 SNP 位点。结果显示,GRNN、PNN、GA - RF 性能更优,筛选出关键 SNP 位点。这为 NIHL 预测提供新方法,助力职业健康管理。

  在全球工业化浪潮的推动下,各类工厂机器轰鸣,然而,这背后却隐藏着一个严重威胁人们健康的 “无声杀手”—— 噪声性听力损失(Noise - Induced Hearing Loss,NIHL)。据世界卫生组织估计,全球数十亿人因暴露在有害噪声环境中,不可避免地面临着 NIHL 的风险。NIHL 是一种常见的感音神经性听力障碍,约 16% 的成人致残性听力损失可归因于职业噪声暴露。它是由遗传、环境和生活行为等多种因素共同作用导致的复杂疾病。但令人遗憾的是,目前缺乏特异性和敏感性高的早期筛查指标,多数患者确诊时已发展至中重度阶段,且尚无有效治疗方法,早期预防成为关键。因此,准确预测噪声暴露工人患 NIHL 的风险,对提升他们的生活质量、减轻医疗和社会经济负担至关重要。
为了攻克这一难题,东南大学环境医学工程教育部重点实验室和江苏省疾病预防控制中心(江苏省预防医学科学院)等机构的研究人员开展了一项极具意义的研究。他们对比了传统逻辑回归(Logistic Regression,LR)和七种机器学习(Machine Learning,ML)算法在 NIHL 预测中的综合性能,并深入探究了与 NIHL 发生和发展显著相关的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点。研究成果发表在《Scientific Reports》上,为 NIHL 的预测和预防开辟了新的道路。

在这项研究中,研究人员采用了多种关键技术方法。首先,他们从江苏省职业病危害监测系统覆盖的 52 家企业中,精心筛选出 1338 名符合条件的噪声暴露工人作为研究对象。通过问卷调查收集工人的基本信息,依据国家标准测量工作环境中的噪声暴露强度,进行纯音测听(PTA)以确定 NIHL 病例。采集工人静脉血提取基因组 DNA,筛选 88 个 SNP 位点并进行基因分型。运用 SPSS 27.0 软件进行统计分析,建立 LR 模型;使用 MATLAB 9.0(R2016a)开发并实现七种 ML 算法模型,并以准确率、召回率、精确率、F 分数、R2和 AUC 等作为模型性能评价指标。

下面来看具体的研究结果:

  • 研究人群的一般特征:经过严格筛选,最终 1138 名噪声暴露工人纳入研究,其中病例组 753 人,对照组 585 人。两组在年龄、性别、吸烟和饮酒等方面无显著差异,但噪声暴露时间、噪声暴露水平和高频听力阈值差异显著,病例组高频听力阈值明显更高。
  • 选定 SNP 位点的基本信息及分析结果:研究共纳入 88 个 SNP 位点,涉及 40 个基因。单因素分析显示 12 个 SNP 位点基因型分布在病例组和对照组间存在显著差异,多因素调整后 8 个位点仍有显著差异,且这些位点不存在多共线性。经 PNN 和 GRNN 特征提取后,选取特征重要性排名前 10 的 SNP 位点,但这些位点在单因素和多因素分析中均无统计学意义。后续模型构建和验证围绕 8 个、10 个和 88 个位点展开。
  • 模型性能比较
    • 传统 LR 与 5 种经典 ML 算法的性能比较:在 88 个 SNP 位点数据集上,LR 模型整体性能未达预期。5 种 ML 算法对 LR 筛选的 8 个 SNP 位点建模,性能指标不佳甚至低于 LR。对 10 个 SNP 位点建模时,部分 ML 算法性能提升且优于 LR。直接对 88 个 SNP 位点建模,GA - RF、XGBoost 和 KNN 的准确率高于 LR,其中 GA - RF 表现突出,各项性能指标均优于 LR,其筛选的重要 SNP 位点对 NIHL 数据的二分类效果显著。
    • 传统 LR 与两种超参数优化 ML 算法的性能比较:PNN 和 GRNN 对 LR 筛选的 8 个 SNP 位点训练,模型准确率较低。对 10 个 SNP 位点训练,准确率有所提高。对 88 个 SNP 位点训练时,GRNN 优势明显,二者均表明 rs12582464 是 88 个 SNP 位点中与 NIHL 发生和发展显著相关的重要位点。


研究结论和讨论部分指出,在 NIHL 预测方面,多种 ML 算法表现优于或至少与传统 LR 相当,其中 GRNN、PNN 和 GA - RF 综合性能更优,是 NIHL 预测的首选模型,可作为传统 LR 的重要补充。这些算法筛选出的 SNP 位点更可靠、更具代表性,如 rs12582464、rs309184 和 rs2447867 等可能是 NIHL 人群的新型致病位点,rs2304277 与 NIHL 的发生和发展密切相关,有助于提高预测准确性。LR 在 NIHL 预测中表现不佳,可能与样本量、模型特性和数据集特征等因素有关,如处理高维数据时易受 “维数诅咒” 影响,且难以捕捉变量间复杂的非线性关系。而 ML 算法能高效处理大规模数据集,内置特征选择机制,可灵活建模非线性关系。不过,本研究也存在一定局限性,如研究人群局限、未全面评估所有潜在模型、属于回顾性研究难以推断因果关系等。

尽管如此,这项研究仍具有重要意义。它首次系统比较了 LR 和多种 ML 算法在 NIHL 预测中的性能,为后续研究提供了重要参考。随着电子健康记录(EHRs)的广泛应用,ML 在疾病预测领域前景广阔。未来,研究人员可进一步收集更大规模的人群样本,纳入更多风险因素进行测试和评估,不断优化 ML 模型的参数设置和特征工程,有望实现 NIHL 的精准预测,为职业健康管理提供更科学的决策依据,让人们在噪声环境中多一份安全保障,远离 NIHL 的威胁。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号