一个用于预测南海中人为和天然碘同位素的集成机器学习框架,并包含不确定性量化

《Applied Radiation and Isotopes》:An Integrated Machine Learning Framework for Predicting Anthropogenic and Natural Iodine Isotopes in the South China Sea with Uncertainty Quantification

【字体: 时间:2025年11月22日 来源:Applied Radiation and Isotopes 1.8

编辑推荐:

  碘-129浓度及稳定碘-127比值的贝叶斯神经网络预测模型在南中国海的应用,通过改进雪雁算法优化超参数,实现多目标高精度预测(R2均超0.8)并量化不确定性,为海洋环境监测提供新工具。

  
严邦堂
中国科学院大学,北京,中国

摘要

人为产生的碘-129(^129I)是一种关键的、半衰期长的放射性核素,用于追踪海洋环流和环境污染。然而,其测量成本高昂,且得到的数据在空间上分布稀疏,这限制了全面的环境评估。本研究提出了一种新颖的、集成的机器学习框架,利用易于获取的海洋学参数来预测南海中不仅人为产生的^129I,还有稳定的^127I及其同位素比(^129I/^127I)的浓度。该框架以贝叶斯神经网络(BNN)作为核心预测模型,为每个预测结果提供了可靠的不确定性量化。BNN的复杂超参数通过改进的Snow Goose算法(ISGA)进行了系统优化,这是一种强大的元启发式方法,能够高效地探索复杂的搜索空间。在独立测试集上的评估显示,优化后的ISGA-BNN框架对所有三个目标的预测精度都很高。模型的R^2值分别为:^127I为0.9623,^129I/^127I比为0.9286,^129I为0.8148。诊断分析证实,BNN提供了校准良好的不确定性区间,准确反映了每个预测的置信水平。这一框架通过提供准确的多目标预测和重要的不确定性估计,为增强环境监测和优化未来的采样活动带来了潜力。

引言

环境放射性,特别是来自人为来源的放射性,一直是科学界和公众关注的焦点。半衰期为1570万年的长寿命裂变产物碘-129(^129I)已成为一种重要的环境示踪剂[1]、[2]、[3]。它在海洋环境中的主要来源是核燃料再处理厂的授权排放。一旦释放,^129I会随着洋流传播,使其成为研究水团传输、海洋环流模式以及可溶性污染物长距离迁移的宝贵工具[4]、[5]、[6]。
南海是一个大型、半封闭的边缘海域,其水文状况受到黑潮、季风系统和河流输入的影响。了解南海中示踪剂(如^129I)的分布和传输对于验证海洋学模型和评估潜在的环境影响至关重要[7]、[8]、[9]。作为水团交换的强大示踪剂,^129I在东海的有效应用进一步凸显了其在理解区域海洋环流中的重要性[10]。然而,获取^129I数据在方法上要求较高,需要大量水样采集和分析。这一过程既昂贵又耗时,导致数据集在空间和时间上都非常稀疏[11]、[12]、[13]。
机器学习(ML)为解决数据稀缺问题提供了有希望的途径。通过学习易于测量的海洋学参数(如温度、盐度、深度)与放射性核素浓度之间的复杂非线性关系,ML模型可以插值并预测未采样区域中的示踪剂分布[14]、[15]、[16]。Hou等人的基础研究[17]首次证明了使用机器学习预测南海中^129I的可行性。尽管这项初步工作具有开创性,但它仅关注单目标点预测。然而,对模型不确定性的量化对于风险评估和指导未来研究至关重要。
本研究旨在通过开发一种新颖的、集成的机器学习框架来填补这一空白。我们的贡献有三个方面:
  • 1.
    我们开发了一个多目标预测系统,用于预测^129I、^127I以及^129I/^127I比值。
  • 2.
    我们采用贝叶斯神经网络(BNN)作为核心模型,不仅提供准确的预测结果,还为每个预测提供可靠的、可量化的不确定性估计。
  • 3.
    我们使用改进的Snow Goose算法(ISGA)优化了BNN的复杂超参数,确保模型发挥出最大的预测潜力。
  • 所开发的框架为环境科学家提供了一个强大的工具,将稀疏的测量数据转化为海洋环境中关键碘同位素的全面、具有不确定性意识的地图。

    数据集和预处理

    本研究使用的数据集由Hou等人[16]公开提供,来源于在南海收集的样本。数据集包含210个样本,每个样本有七个预测变量(特征)和三个潜在的目标变量(目标)。

    特征包括:站点、纬度(N°)、经度(E°)、深度(m)、温度(°C)、盐度(PSU)和叶绿素a(mg/m^3)。三个目标变量分别是:稳定的^127I(μg/L)和人为产生的^129I。

    模型优化和性能

    ISGA驱动的HPO过程成功地为每个目标确定了最佳的BNN配置。最终的超参数总结在表1中。对于所有三个目标,单隐藏层架构被证明是最优的,表明这种结构足以捕捉数据中的内在关系而不会过拟合。
    使用这些最佳超参数训练的最终模型在独立测试集上进行了评估。性能指标如表2所示:

    结论

    本研究成功证明了结合贝叶斯神经网络和ISGA元启发式优化的集成机器学习框架可以准确预测南海中^129I、^127I及其同位素比的浓度。这些模型不仅具有高预测性能,更重要的是,还提供了可靠的、具有科学意义的不确定性估计。这项工作超越了简单的预测,为环境监测提供了强大的新工具。

    利益冲突声明

    ? 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号