机器学习助力解析合成农用化学品对人类健康的影响:构建精准预测框架

【字体: 时间:2025年05月04日 来源:Scientific Reports 3.8

编辑推荐:

  在农业生产中,合成农用化学品广泛使用引发环境与健康问题,传统评估方法存在局限。研究人员开展 “使用先进机器学习方法测量和分析合成农用化学品对人类健康的影响” 研究,发现 LightGBM-PSO + CustomLoss 模型表现最佳,有助于制定相关政策法规保障公众健康。

  在现代农业的大舞台上,合成农用化学品(如农药、化肥等)可谓是一把 “双刃剑”。它们凭借强大的功效,极大地提升了农作物的产量,有效抵御了病虫害的侵袭,为全球粮食供应立下了汗马功劳。然而,随着其使用范围的不断扩大和使用量的持续增加,一系列令人担忧的问题也逐渐浮出水面。大量研究表明,这些合成农用化学品在环境中肆意残留,严重破坏了生态平衡,还悄无声息地威胁着人类的健康。长期暴露在这些化学品下,人们患神经系统疾病、癌症、呼吸系统和代谢疾病的风险显著增加,尤其是农业工作者和弱势群体,他们首当其冲,深受其害。
更为棘手的是,现有的评估这些化学品对健康影响的方法存在诸多不足。传统的评估方式往往依赖于确定性模型和非实验性研究,难以全面考量复杂多变的环境因素、化学品暴露情况以及人群差异。这就好比用一把 “简陋的尺子” 去衡量一个复杂的世界,结果自然是不准确的。在这样的背景下,为了更精准地评估合成农用化学品对人类健康的影响,来自印度古鲁那纳克德夫大学(Guru Nanak Dev University)的研究人员展开了一项极具意义的研究。

研究人员从世界卫生组织(WHO)、美国疾病控制与预防中心(CDC)、美国环境保护署(EPA)、美国国家健康与营养检查调查(NHANES)和美国农业部(USDA)等权威机构收集了大量数据。这些数据涵盖了化学品类型、暴露时长、农作物种类、人群年龄等丰富信息,为后续研究奠定了坚实基础。随后,他们运用多种先进的机器学习技术,精心构建了一个预测框架。在这个过程中,研究人员使用递归特征消除(RFE)和互信息增益(MI)等方法进行特征选择,筛选出对预测结果最为关键的特征;采用随机森林(Random Forest)、LightGBM、CatBoost 等集成学习模型(Ensemble 模型)进行预测,并通过粒子群优化(PSO)和遗传算法(GA)对模型进行优化,还设计了自定义损失函数(Custom Loss Function)来处理数据不平衡问题。

经过一系列严谨的研究,研究人员得出了令人瞩目的结论。在众多模型中,LightGBM - PSO + CustomLoss 模型脱颖而出,展现出卓越的性能,其准确率高达 98.87%,精度为 98.59%,召回率达 99.27%,F1 分数为 98.91%。这意味着该模型能够极为精准地预测合成农用化学品暴露对人类健康的影响,为相关风险评估提供了强有力的支持。此外,研究还发现化学浓度、暴露持续时间和农用化学品类型是影响健康结局的关键因素。这些结论意义非凡,为政策制定和监管框架的完善提供了科学依据,有助于保障公众的健康与安全。该研究成果发表在《Scientific Reports》上,引起了广泛关注。

在研究方法上,研究人员主要运用了以下关键技术:一是数据处理技术,从多个权威机构收集数据,对原始数据进行标准化、缺失值处理、编码和归一化等预处理操作;二是特征选择技术,利用 RFE 和 MI 筛选重要特征;三是模型构建与优化技术,运用多种机器学习模型,并借助 PSO 和 GA 优化模型,同时采用自定义损失函数处理数据不平衡问题。

研究结果具体如下:

  • 基线模型性能:通过对多种机器学习模型的性能评估,发现集成学习模型(如 Random Forest、CatBoost 和 LightGBM)在预测健康结局方面表现优于传统模型(如逻辑回归、支持向量机和 K 近邻算法)。例如,LightGBM 的准确率达到 98.35%,召回率为 98.02%,在众多模型中表现突出12
  • 模型增强:自定义损失函数显著提升了模型在预测死亡率方面的召回率,如 LightGBM 模型在使用自定义损失函数后,召回率从 92.45% 大幅提升至 98.02%,有效减少了漏诊情况3
  • Metaheuristic 模型优化:经 PSO 和 GA 优化后,LightGBM 模型性能进一步提升,其中 LightGBM - PSO + CustomLoss 模型的各项指标最优,展示了优化算法的有效性4
  • 特征重要性:RFE 和 MI 分析表明,化学浓度、暴露持续时间和农用化学品类型是影响健康结局的重要因素。SHAP 分析也显示,化学浓度对模型预测结果影响较大5
  • 模型评估:通过误差分析、ROC 曲线分析、风险分割和学习曲线分析等多种评估方式,验证了模型的准确性、稳定性和泛化能力,其中 LightGBM - PSO + CustomLoss 模型在各项评估中表现出色6

研究结论和讨论部分指出,机器学习模型在预测合成农用化学品对人类健康的影响方面具有巨大潜力,集成学习方法结合优化算法能够有效处理复杂数据集,提高预测的准确性。该研究不仅填补了以往研究在评估合成农用化学品对人类健康影响方面的空白,还为未来的研究指明了方向。后续研究可进一步拓展数据集,涵盖更多地区和变量,探索深度学习策略,利用卫星数据和物联网设备进行实时监测等,从而更深入地了解合成农用化学品与人类健康之间的关系,推动制定更加科学合理的政策,保障公众健康和生态安全。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号