编辑推荐:
为解决利用卫星遥感监测内陆水体非光学活性参数(如总磷(TP))的难题,研究人员利用太湖 17 个浮船站实测数据和 Sentinel - 2 卫星影像构建优化 XGBoost 模型。结果显示模型精度高,能反映 TP 时空分布。该研究为水质监测提供新方法。
在环境监测领域,湖泊水质状况关乎生态平衡与人类福祉。传统水质监测方法,需耗费大量人力和时间,且只能获取局部水质信息,难以全面反映大水域的真实情况。卫星遥感技术虽具备宏观、周期性和高分辨率的优势,可补充无实地观测区域的水质信息,但在监测内陆水体非光学活性参数方面却困难重重。就拿总磷(TP)来说,它是评估湖泊营养状态的关键指标,过多的磷会导致水体富营养化,引发藻类过度繁殖,降低水体透明度,造成严重的水污染。然而,TP 浓度无法直接从卫星遥感光谱中获取,加上内陆水体光学特性复杂多变,不同水体周边流域情况各异,污染源多样,使得利用卫星遥感监测 TP 成为一大挑战。在此背景下,研究人员开启了探索之旅,旨在寻找更有效的方法来精准监测湖泊中的 TP 含量。
国内研究人员针对这一难题展开研究。他们以太湖为研究对象,利用 17 个浮船站的实测总磷数据以及 Sentinel - 2 卫星影像,构建了基于贝叶斯优化和特征选择的 XGBoost 模型,用于反演太湖的总磷水平。研究发现,不同分辨率的波段比值在模型构建中发挥了关键作用,在优化模型中占特征输入变量的 79%。通过该模型反演得到的总磷空间分布与实际情况高度吻合,模型的决定系数(R2)达到 0.7151,均方根误差(RMSE)为 0.0179mg/L。与使用所有特征变量的模型相比,优化后的模型 R2提高了 35%,RMSE 降低了 11.4%,总磷反演浓度的准确率达到 81.7%。这一研究成果发表在《Ecological Indicators》上,为湖泊水质监测提供了新的技术手段,对太湖及其他类似湖泊的水质管理具有重要的指导意义。
研究人员开展研究时运用了多种关键技术方法。数据来源上,采用了 Sentinel - 2 卫星的 Level - 2A 影像数据(经大气校正,包含 12 个波段)以及太湖 17 个浮船站的自动监测数据(每 4 小时监测一次 TP 浓度) 。数据预处理阶段,对卫星数据进行降尺度处理,将不同分辨率的波段统一为 10m 分辨率,并计算多种波段比值;对自动站数据则选取与卫星过境时间相近的监测值并取平均。建模时,运用 XGBoost 模型,通过贝叶斯优化算法调整模型超参数,并进行特征变量选择,以 10 折交叉验证评估模型性能。
研究结果主要涵盖以下几个方面:
- 最优模型构建:研究以 12 个光谱波段和不同分辨率波段比值等 58 个变量作为输入特征,利用 355 个样本数据集进行模型训练和测试(训练集与测试集按 8:2 划分)。经 10 折交叉验证和贝叶斯优化,发现不同波段比值对模型影响大于单波段。当输入特征变量为 19 个时,模型训练和测试性能达到最优,此时 R2为 0.7151,RMSE 为 0.0179mg/L。
- 最优模型评估:对比全特征变量和最优特征变量模型参数,发现最优特征模型在 max_depth 和迭代次数等主要超参数上有显著提升,数据挖掘能力更强。优化后的模型在训练集上拟合效果近乎完美(R2高达 0.999),在测试集上 R2为 0.7151,相比全特征变量模型有明显提升,且残差波动范围更窄,相对误差更小,精度显著提高。
- 总磷反演结果:利用优化模型对 2020 - 2024 年太湖遥感影像进行 TP 浓度反演,分析发现太湖 TP 浓度空间分布受湖流影响,总体呈西高东低趋势,2021 年因特殊气象条件出现异常;时间分布上,年平均 TP 浓度先降后升再降,2024 年比 2020 年降低 12.7%,且月浓度呈现冬低夏高的特点,与实际监测数据变化趋势一致,充分验证了模型的准确性。
研究结论表明,利用贝叶斯优化算法构建的 XGBoost 模型有效避免了过拟合问题,提高了模型的泛化能力。通过特征组合优化,模型测试精度显著提升,不同分辨率波段比值在模型中发挥重要作用,能更好地反映水体光谱特征,捕捉 TP 浓度的空间分布特性。该模型反演的 TP 浓度空间分布与实际相符,为太湖流域水环境管理提供了科学依据,有助于制定更精准的水污染控制和生态保护策略。
在讨论部分,研究人员深入分析了模型的物理机制,发现 TP 虽为非光学活性参数,但与浊度、叶绿素等光学活性参数相关,通过卫星遥感光谱可间接反映其含量,B4/B5 等波段比值对模型性能贡献显著。借助 SHAP 值分析,进一步揭示了 B11、B3/B5 等特征在模型预测中的重要作用及其物理机制。同时,研究也指出模型性能受数据集质量影响,如样本数量、代表性、数据一致性以及卫星图像噪声等问题。与其他机器学习模型相比,XGBoost 在训练集拟合和测试集泛化方面表现更优。与现有研究相比,本研究模型在 TP 反演精度上有一定提升,但与近海监测相比,对于光学复杂的内陆水体,精度仍有待提高。
总体而言,该研究成果为构建卫星反演模型以确定非活性水质参数提供了实践参考,为构建空天地一体化监测网络提供了有力技术支持,在卫星数据开放共享的背景下,为实现大规模、低成本的水质监测开辟了可行路径,对推动内陆水体水质监测技术发展具有重要意义。未来研究可从整合多源数据、探索模型可解释性工具、扩大样本量等方向深入,进一步提升非光学活性参数的遥感反演精度。