通过口服摄入途径,利用先进的优化方法预测地下水健康风险概率

《Journal of Contaminant Hydrology》:Groundwater health probability risk prediction through oral intake using advanced optimization methods

【字体: 时间:2025年07月16日 来源:Journal of Contaminant Hydrology 3.5

编辑推荐:

  地下水致癌风险预测模型研究通过整合真实实验与生成式AI合成数据,评估了ANN、GPR、SVM和BT等机器学习模型在预测概率癌症风险(PCR)中的效能,发现贝叶斯优化(BO)可显著降低ANN的测试误差(MAE=0.0902),但合成数据模型误差较高(MAE=15.718),表明真实数据质量对预测精度至关重要。

  本研究探讨了通过饮用水摄入地下水(GW)所带来的癌症风险,特别是在那些高度依赖地下水作为饮用水源和农业灌溉水源的地区。地下水污染是一个全球性问题,尤其是在沙特阿拉伯王国,其东部地区由于快速工业化和高强度农业活动,地下水质量面临严峻挑战。这些污染物质包括重金属、硝酸盐和挥发性有机化合物,它们不仅影响水的饮用安全性,还可能对健康造成潜在威胁。随着科技的发展,机器学习(ML)和人工智能(AI)技术被越来越多地应用于环境健康研究,为科学家和公共卫生专家提供了一种新的工具来理解和预测与环境暴露相关的健康风险。

传统的风险评估方法通常需要长时间的流行病学研究和化学分析,这些过程不仅繁琐且耗时,而且在预测个体癌症风险方面往往不够精确。例如,Sohrabi等人(2021)通过多变量统计分析和概率与确定性风险评估方法,研究了伊朗乌尔米亚沿海含水层中地下水中的有毒元素,特别是砷的健康风险。研究结果显示,在某些地点,砷、铅、铁和硒的浓度超过了安全水平,对成人和儿童均存在显著的非致癌和致癌风险。蒙特卡洛模拟表明,饮用水摄入是主要的暴露途径,而皮肤接触的影响则相对较小。这项研究强调了结合概率评估和蒙特卡洛模拟方法在环境健康研究中的有效性。

同样,Sheng等人(2021)使用蒙特卡洛算法评估了地下水中的砷和镉的健康风险。研究设置了两种情景来分析这些风险:一种是固定参数和变化的金属浓度,另一种是变化参数和金属浓度。研究发现,在不同条件下,砷和镉均对婴儿和成人产生显著的非癌症和癌症风险。通过将概率评估与蒙特卡洛模拟相结合,该方法为健康风险提供了深入的见解,增强了管理地下水的决策过程。

近年来,许多研究者对不同地区由于各种重金属污染而引发的健康风险进行了评估和预测。例如,Biswas等人(2023)对印度西孟加拉邦南24邦格纳斯和东美迪尼普尔地区的地下水污染和相关健康风险进行了深入研究。研究重点分析了砷和氟的高浓度,这些元素对儿童和成人均存在显著的非致癌健康风险。研究者采用了结合熵加权水质指数(EWQI)和健康风险评估(HRA)的稳健方法,并通过蒙特卡洛模拟和敏感性分析来评估地下水质量和预测潜在健康危害。研究结果表明,该地区超过55%的区域面临较差的地下水质量,儿童因砷污染而面临更高风险,而成人则因氟污染而受影响较大。

Ruidas等人(2023)则对印度-孟加拉国拉姆萨尔沿海地区的地下水质量及其相关健康风险进行了全面的水文地球化学评估。研究者收集并分析了199个地下水样本,评估了包括砷和氟在内的十二项关键理化参数的浓度。他们使用了污染程度(Cd)、地下水质量测量(GWQM)和健康风险指数(HRI)等技术,绘制了健康危害风险区(HHRZ)图。研究结果表明,该地区超过35%的区域面临较差的水质,对健康构成严重威胁。然而,大多数研究仍基于传统的蒙特卡洛模拟等方法。

尽管已经有很多研究致力于利用人工智能和机器学习技术评估地下水污染对健康的影响,但在沙特阿拉伯,特别是东部地区,相关研究相对较少。Abba等人(2023)采用了一种全面的方法,评估了沙特阿拉伯东部地区地下水中的氟(F?)和硝酸盐(NO3?)污染情况。研究利用了统计分析、皮尔逊相关性、主成分分析和图形分析,评估了这些元素的浓度水平、污染机制和健康风险。研究结果表明,由于高污染水平,地下水质量总体较差,不适合饮用。然而,他们的方法仍然依赖于传统方法,并且仅评估了两种元素的健康风险。

为了填补这一研究空白,本研究采用先进的机器学习技术,探讨了成人通过饮用水摄入地下水所带来的癌症风险。研究特别关注了砷(As)、铬(Cr)、铅(Pb)和镉(Cd)这四种痕量元素,通过饮用水摄入的途径进行分析。这种方法有助于更深入地理解痕量元素污染及其对人类健康的潜在影响。同时,研究结果对于政策制定者、水资源管理者和公共卫生机构也具有重要价值,因为这些洞察将有助于决策过程,并推动有效的风险缓解策略的制定。

本研究的贡献主要体现在三个方面。首先,据我们所知,这是第一项在沙特阿拉伯东部地区,特别是Al Qatif地区,探索机器学习技术在预测癌症风险方面应用的研究。其次,进行了全面的实地调查和受控实验室实验,以评估地下水中的重金属污染物。第三,为了解决收集大量真实实验数据所面临的挑战和限制,我们采用了生成式人工智能技术,通过增强真实数据样本并将其应用于机器学习建模。最后,进行了广泛的实验,以评估所提出方法的有效性,旨在定量评估地下水摄入对成人健康的影响。

在实际数据的分析中,研究者采用了一系列机器学习模型,包括人工神经网络(ANN)、高斯过程回归(GPR)、支持向量机(SVM)和提升树(BT),并在这些模型中引入了贝叶斯优化(BO)算法,以提高模型的预测效率。研究结果显示,在训练阶段,人工神经网络(ANN)表现最佳,其均方误差(MSE)为0.1231,平均绝对误差(MAE)为0.1483,均方根误差(RMSE)为0.3508。相比之下,GPR、SVM和BT模型的训练误差较高。在测试阶段,ANN继续领先,其MAE为0.5733,MSE为0.6356,RMSE为0.7972。当模型经过贝叶斯优化后,ANN-BO在训练阶段的表现进一步提升,其MAE为0.1686,MSE为0.1097,RMSE为0.3312。GPR+BO紧随其后,其MAE为0.1679,MSE为0.1095,RMSE为0.3310。在测试阶段,ANN-BO的表现更加显著,其MAE为0.0902,MSE为0.0129,RMSE为0.1136。

然而,在合成数据的分析中,即使经过优化的模型如ANN-BO,其测试误差仍然较高,MAE为15.718,MSE为374.53,RMSE为19.353。这一结果表明,合成数据在捕捉现实世界复杂性方面存在局限性。所有模型的高误差值都表明,仅依赖合成数据不足以准确评估健康风险。因此,利用真实世界数据仍然是提高预测准确性和减少误差的关键,强调了数据质量在实现可靠的地下水摄入癌症风险预测中的重要性。

本研究还强调了生成式人工智能在生成科学数据方面的可靠性。通过结合真实实验数据和生成式人工智能驱动的合成数据,研究者构建了一个全面的数据集,并比较了两种数据源的预测效率。这一方法不仅能够弥补真实数据样本不足的问题,还能够为机器学习建模提供更多的数据支持。此外,生成式人工智能在提高数据多样性和覆盖范围方面具有显著优势,使得模型能够更好地适应不同的环境条件和健康风险。

研究结果表明,尽管生成式人工智能能够增强数据集的规模和多样性,但在实际应用中,其生成的数据仍需与真实数据相结合,以确保预测的准确性和可靠性。特别是在地下水污染的健康风险评估中,真实数据的获取和分析对于模型的训练和测试至关重要。合成数据虽然能够提供额外的样本,但其在模拟现实世界复杂性方面存在一定的局限性,可能导致模型预测偏差。因此,为了确保健康风险评估的准确性,研究者需要结合真实数据和合成数据,以获得更全面的预测结果。

此外,本研究还探讨了不同机器学习模型在预测癌症风险方面的表现。研究发现,在真实数据的训练和测试阶段,人工神经网络(ANN)表现出色,其预测误差显著低于其他模型。而当模型经过贝叶斯优化后,ANN-BO在测试阶段的表现进一步提升,显示出优化对模型性能的积极影响。相比之下,GPR+BO在测试阶段的表现接近ANN-BO,表明生成式人工智能在提升模型预测能力方面具有重要作用。然而,在合成数据的分析中,所有模型的表现均不如真实数据,这表明合成数据在模拟真实世界条件方面仍存在不足。

本研究的另一个重要发现是,不同机器学习模型在处理地下水污染数据时的表现存在差异。研究结果显示,人工神经网络(ANN)在预测癌症风险方面具有显著优势,特别是在处理复杂数据关系时。相比之下,其他模型如GPR、SVM和BT在预测准确性方面稍逊一筹。这一结果表明,人工神经网络在处理地下水污染数据时具有更强的适应性和预测能力。然而,生成式人工智能的应用仍然需要进一步优化,以提高模型在处理复杂数据时的准确性和可靠性。

研究还发现,贝叶斯优化(BO)算法在提升模型预测能力方面具有重要作用。在真实数据的测试阶段,ANN-BO的表现显著优于未经优化的ANN模型,显示出优化对模型性能的积极影响。这一结果表明,贝叶斯优化能够有效提高模型的预测准确性,特别是在处理高维数据和复杂关系时。然而,在合成数据的测试阶段,BO优化的效果并不明显,这表明合成数据在模拟真实世界条件方面仍存在一定的挑战。

综上所述,本研究通过结合真实实验数据和生成式人工智能驱动的合成数据,构建了一个全面的数据集,并比较了不同机器学习模型在预测癌症风险方面的表现。研究结果表明,人工神经网络(ANN)在真实数据的预测中表现出色,特别是在处理复杂数据关系时。然而,在合成数据的预测中,所有模型的表现均不如真实数据,这表明合成数据在捕捉现实世界复杂性方面存在局限。因此,为了确保地下水污染健康风险评估的准确性,研究者需要依赖真实数据,并结合生成式人工智能技术来增强数据集的多样性和覆盖范围。

本研究的成果对于政策制定者、水资源管理者和公共卫生机构具有重要价值。通过定量评估地下水摄入对成人健康的影响,研究者能够为制定有效的风险缓解策略提供科学依据。同时,研究结果也表明,生成式人工智能在提高数据集的规模和多样性方面具有显著优势,但其在模拟现实世界条件方面仍需进一步优化。因此,未来的研究需要进一步探索生成式人工智能与真实数据相结合的方法,以提高地下水污染健康风险评估的准确性和可靠性。

此外,本研究还强调了数据质量在实现可靠预测中的关键作用。研究发现,合成数据虽然能够提供额外的样本,但其在模拟真实世界条件方面存在一定的局限性,可能导致模型预测偏差。因此,为了确保预测的准确性,研究者需要结合真实数据和合成数据,以获得更全面的预测结果。同时,研究结果也表明,生成式人工智能在增强数据集的多样性和覆盖范围方面具有显著优势,使得模型能够更好地适应不同的环境条件和健康风险。

综上所述,本研究通过结合真实实验数据和生成式人工智能驱动的合成数据,构建了一个全面的数据集,并比较了不同机器学习模型在预测癌症风险方面的表现。研究结果表明,人工神经网络(ANN)在真实数据的预测中表现出色,特别是在处理复杂数据关系时。然而,在合成数据的预测中,所有模型的表现均不如真实数据,这表明合成数据在捕捉现实世界复杂性方面存在局限。因此,为了确保地下水污染健康风险评估的准确性,研究者需要依赖真实数据,并结合生成式人工智能技术来增强数据集的多样性和覆盖范围。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号