土壤实验室分析与卫星光谱数据过滤:一种光谱质量评估协议(SQuaP)
《Remote Sensing of Environment》:Soil laboratory and satellite spectral data filtering: A Spectral Quality Protocol (SQuaP)
【字体:
大
中
小
】
时间:2025年11月22日
来源:Remote Sensing of Environment 11.4
编辑推荐:
提出SQuaP协议,整合规则、统计及机器学习方法,提升土壤光谱数据质量,应用于实验室和卫星数据,验证其有效性和保持数据多样性,代码开源。
土壤光谱学是一种强大的技术,用于土壤监测。目前,数百个土壤光谱数据集,包括开放访问和私人数据,被用于各种应用,尽管这些数据可能存在一定的误差。本研究提出了一种过滤协议,旨在提升实验室和卫星来源的土壤光谱数据集的质量,该协议被称为**光谱质量协议(SQuaP)**。首先,我们利用了一个包含9261个巴西土壤样本的数据库,这些样本同时配有实验室高光谱(350–2500纳米)和Sentinel-2多光谱数据。随后,我们在全球范围内的开放数据集和通过**地理土壤感知系统(GEOS3)**识别的裸土卫星观测数据上测试了SQuaP。该过滤方法包括多个步骤:应用基于规则的检查(如作物残留、反射率趋势),通过主成分分析-马氏距离(PCA-Mahalanobis)识别异常值,利用土壤线回归确保上下文一致性,通过隔离森林算法在簇内检测异常,最后通过随机森林残差验证属性光谱的一致性。研究结果表明,SQuaP显著提升了土壤光谱数据的可靠性,从而提高了使用随机森林算法对黏粒和土壤有机碳(SOC)进行建模的性能。对于高光谱数据,SQuaP使黏粒的R2提高了17.55%,SOC的R2提高了1.58%,同时减少了RMSE的误差,分别为10.41克/千克和2.06克/千克。对于卫星数据,改进更为显著,R2的提升幅度分别达到了15.76%和13.38%,RMSE的误差也大幅降低。在全球尺度上,实施SQuaP后,几乎所有大洲的预测性能都有所提高,R2的提升范围从-2.15%到13.40%不等。这些发现突显了SQuaP在噪声过滤和提升预测准确性方面的有效性,特别是在多光谱数据的应用中。此外,这些改进并未影响数据的变异性,正如通过核密度估计(KDE)分析所确认的那样,表明该协议成功去除了异常值,同时保留了数据集的统计完整性。SQuaP可以适应不同的数据集和应用场景,从而促进更准确的土壤属性预测,并推动数字土壤制图和精准农业的发展。
土壤是农业生产的基础,为植物提供支撑和养分。实现最佳产量和有效的土壤管理,需要理解土壤的化学和物理特性。如今,我们通常在传统的湿实验室中进行这些分析,这不仅需要大量化学试剂,而且在过程中还容易受到各种误差的影响(da Paiva等,2022),同时还涉及较长的处理时间(Poppiel等,2022)。相比之下,光谱学在土壤科学中具有优势,能够快速生成土壤的定性和定量信息(Ma等,2023)。对于地球科学家来说,光谱学是一种关键工具,它能够为土壤数据提供快速、经济、对环境影响小的定量和定性信息,覆盖大面积区域,同时达到可接受的精度(Viscarra Rossel和McBratney,2008;Ben-Dor等,2009)。可见近红外(350–1000纳米)、短波红外(1000–2500纳米)以及中红外(2500–25,000纳米)波长范围,涵盖了电磁波谱的可见、近红外、短波红外和中红外部分,具有捕捉土壤属性信息的潜力(Chabrillat等,2013;de Mendes等,2022)。在土壤感知中,这些波长直接与土壤矿物学、水分含量、土壤有机碳(SOC)、氢氧化物、某些硫酸盐等属性相关(Stenberg等,2010;Chabrillat等,2013)。为了理解光谱特征,必须了解能量如何与土壤的组成成分相互作用,并从这一过程中找出区分它们的特征。Demattê等(2014)开发了一种解释光谱形态的方法,该方法与土壤分类相关。尽管如此,我们仍然需要将这一知识整合到自动化系统中,以满足用户的实际需求。
土壤光谱库(SSL)通常由不同人为了不同目的收集的信息组成(Rossel和Behrens,2010),其发展旨在整合各种土壤光谱数据库。SSL有助于土壤研究,因为它提高了昂贵且耗时的研究效率(Shepherd和Walsh,2002)。世界各地存在多个SSL,具有不同的样本数量和研究范围,例如全球光谱库包含23,631个土壤样本(Viscarra Rossel等,2016),巴西光谱库包含39,284个样本(Demattê等,2019a),中国库包含1581个样本(Shi等,2014),新西兰库包含11,246个样本(Ma等,2023),捷克共和国库包含超过500个采集光谱(Brodsky等,2011)等。不同来源的数据引入了与设备使用、样本制备、实验室条件(如温度、湿度,Chabrillat等,2019)以及采样到测量的时间间隔相关的潜在误差(Shepherd等,2022)。为了使SSL真正有用并有效验证由远程平台获得的数据,关键在于其包含的数据是否一致,误差是否被最小化(Nocita等,2015)。为了解决上述问题,已经开发了协议来标准化光谱数据的采集(Ben Dor等,2015),实施能够识别和消除光谱异常值的方法(Poppiel等,2022),以及统一不同采集方法的光谱库(Dor等,2024;Francos等,2023)。
Agelet和Hurburgh(2010)开发了一本关于近红外光谱的教程,介绍了从校准数据中去除异常值的替代方法,例如光谱的视觉检查和使用统计方法如杠杆和Hotelling's T2。在之前的研究中,使用主成分分析(PCA)和Hotelling's T2测试(在95%置信区间内)以及相同置信水平下的Q残差分析,用于在使用可见近红外光谱(Vis-NIR)进行氮、SOC和土壤水分预测建模之前识别异常值(Morellos等,2016)。其他研究人员利用PCA定义了95%置信区间,并将超过此阈值的光谱记录标记为异常值,因为它们的形状偏离较为显著(Khosravi等,2021;Xu等,2018;Zhang等,2020)。然而,仅依靠数学方法检测异常值,无法全面解释土壤光谱曲线可能呈现的复杂性(de Santana等,2018;Song等,2022)。因此,土壤科学家的专业知识对于准确解释由机器学习算法和统计分析生成的结果至关重要,因为土壤的复杂性反映在其光谱中(Weindorf和Chakraborty,2024)。
尽管存在多个不同层次的SSL,但目前尚无协议用于评估其一致性。虽然从实验室的角度来看,一致性有所提高,但裸土信息的获取则提供了新的机会。许多研究关注了从卫星图像中识别裸土像素的方法,例如Demattê等(2014)和van Wesemael等(2024)。Demattê等(2018)使用GEOS3方法开发了一种合成土壤图像(SySI),该图像与实验室土壤光谱数据具有良好的相关性。该产品被用于量化黏粒和砂粒(Fongaro等,2018)。同样,Diek等(2017)和Rogge等(2018)分别使用“最裸像素组合”和“土壤组合映射处理器”(SCMap)对Landsat卫星图像中的裸土进行映射。许多研究使用多时相卫星图像预测土壤质地(Cappello等,2022;Loiseau等,2019)、SOC(Castaldi等,2019;Dou等,2019;Morais等,2023;Zepp等,2023)、土壤水分及其他土壤属性(Fathololoumi等,2021;Ghazali等,2020)。尽管在拼接技术方面取得了进展,但针对从卫星图像中识别和过滤裸土像素的研究仍相对较少。与实验室数据类似,卫星信息必须保持一致且高质量,才能获得可靠的土壤属性估计。考虑到全球范围内数据使用的快速增长,需要创建系统并评估其一致性和过滤能力,以关注质量而非数量。这一需求也因土壤测试实验室的光谱数据使用以及与碳信用计划相关的数据驱动服务而进一步加剧。
因此,我们旨在开发一种用于过滤土壤光谱数据的协议,整合多种分析技术,每种技术都能捕捉数据行为的不同方面。此外,我们希望构建一个结构化的协议,确保其适用于高光谱(近地面)和多光谱(远程)数据。一个完整的流程,包括每个协议阶段的脚本,已经实现并发布在GitHub上,以提高其适用性和可重复性。最后,我们通过将该协议应用于大陆尺度的数据集,评估其有效性,分析过滤对数据变异性的影响以及对建模黏粒和SOC属性的性能提升。
**光谱质量协议(SQuaP)**代表了一种跨学科的方法,结合了土壤科学、反射光谱学、统计学和数据挖掘的原则,以提高大型土壤光谱数据库的一致性和可解释性。其分层结构结合了基于规则、多变量、回归和集成方法,逐步检测和去除高光谱和多光谱数据集中的异常或不一致样本。通过排除这些异常样本,SQuaP提高了整个数据集的可靠性,使土壤属性预测的机器学习模型在不同环境条件下更加稳健和具有代表性。
在数据库开发阶段,**巴西土壤光谱库(BSSL)**数据集(Demattê等,2019b)最初被用于开发SQuaP。BSSL中的数据根据四个标准进行筛选:I)来自表层土壤(主要为0到20厘米深度)的样本;II)具有准确地理坐标的样本(误差小于100米);III)来自裸土区域的样本,允许获取多光谱卫星观测数据;IV)具有可见近红外-短波红外(Vis-NIR-SWIR)实验室数据和黏粒的样本。这些筛选标准确保了数据集的高质量和一致性,为后续的分析和建模奠定了基础。
在异常值筛选阶段,表3和表4展示了两种方法(高光谱-近地面数据和多光谱-远程数据)在开发数据库中每个阶段识别的异常值数量。值得注意的是,由于木质素方程筛选需要2100和2200纳米波长的反射率值,协议的第二阶段未在多光谱方法中应用。至于趋势方程筛选,其应用可能具有冗余性,因为该方法已经被用于识别裸土像素。然而,通过结合多种方法,我们能够更全面地识别和过滤异常值,确保数据集的高质量。这些方法包括基于规则的检查、多变量分析、回归方法以及集成方法,每种方法都针对数据的不同特征进行分析。
研究中采用的整合方法在异常值过滤方面展现出协同效应。这种方法结合了互补的分析技术,每种技术都提供了对数据行为的独特视角。在土壤科学中,这种方法尤为重要,因为土壤属性受到多种相互关联因素的影响,包括矿物成分、SOC、土壤质地、吸附阳离子和环境条件(Jenny,1994;van Breemen和Buurman,1998)。研究如Rossel和Webster(2012)以及Minasny和McBratney(2016)强调了建立一致数据集的重要性,以提高土壤属性预测的准确性。因此,SQuaP不仅考虑了数据的物理和化学特性,还结合了统计和数据挖掘的方法,以确保数据的一致性和可靠性。
在对开发数据库的验证中,SQuaP在模型性能上展现出一致的提升,R2和RPIQ指标均有上升,而RMSE指标则显著下降。这些提升并未减少数据的变异性,正如通过核密度估计(KDE)分析所显示的那样,这表明该协议在去除异常值的同时,保留了数据集的统计完整性。此外,SQuaP的结构化设计使其能够适应不同的数据集和应用场景,从而提高土壤属性预测的准确性。这种方法不仅适用于实验室数据,也适用于卫星数据,为全球范围内的土壤研究提供了统一的标准和流程。
通过SQuaP的实施,我们能够更有效地处理土壤光谱数据中的噪声和异常值,提高预测模型的性能。该协议的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。此外,SQuaP的开发考虑了土壤属性之间的相互关系,使得在处理多光谱和高光谱数据时能够更全面地识别和过滤异常值。这种方法不仅提升了数据的一致性,还确保了预测结果的可靠性,为土壤科学研究提供了坚实的基础。
SQuaP的开发过程还借鉴了多种已有的研究和技术,包括从实验室数据中去除异常值的方法(Morellos等,2016)以及从卫星数据中识别裸土像素的方法(Demattê等,2014;van Wesemael等,2024)。这些方法的整合使得SQuaP能够同时处理高光谱和多光谱数据,确保数据的一致性和可靠性。此外,SQuaP还考虑了不同数据来源之间的差异,通过调整筛选标准和分析方法,使得该协议能够适用于不同地区和环境条件下的土壤研究。
SQuaP的实施不仅提升了数据质量,还为土壤科学研究提供了新的视角和方法。该协议能够适应不同的数据集和应用场景,使得研究人员可以更有效地处理土壤光谱数据,提高预测模型的性能。此外,SQuaP的开发还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
在对全球数据集的应用中,SQuaP在几乎所有大洲的预测性能都有所提升,R2的提升范围从-2.15%到13.40%不等。这表明SQuaP在不同环境条件下都具有良好的适用性,能够有效提升土壤属性预测的准确性。此外,SQuaP的实施并未影响数据的变异性,正如通过核密度估计(KDE)分析所显示的那样,这表明该协议在去除异常值的同时,保留了数据集的统计完整性。因此,SQuaP不仅适用于实验室数据,也适用于卫星数据,为全球范围内的土壤研究提供了统一的标准和流程。
SQuaP的开发过程还涉及了多种数据分析方法的整合,每种方法都针对数据的不同特征进行处理。这种方法不仅提高了数据的一致性和可靠性,还确保了预测结果的准确性。此外,SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
在实际应用中,SQuaP能够有效提升土壤属性预测的准确性,特别是在处理多光谱数据时。该协议的结构化设计使其能够适应不同的数据集和应用场景,从而提高土壤属性预测的准确性。此外,SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
SQuaP的开发不仅提升了数据质量,还为土壤科学研究提供了新的视角和方法。该协议能够适应不同的数据集和应用场景,使得研究人员可以更有效地处理土壤光谱数据,提高预测模型的性能。此外,SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
在对开发数据库的验证中,SQuaP在模型性能上展现出一致的提升,R2和RPIQ指标均有上升,而RMSE指标则显著下降。这些提升并未减少数据的变异性,正如通过核密度估计(KDE)分析所显示的那样,这表明该协议在去除异常值的同时,保留了数据集的统计完整性。此外,SQuaP的结构化设计使其能够适应不同的数据集和应用场景,从而提高土壤属性预测的准确性。这种方法不仅适用于实验室数据,也适用于卫星数据,为全球范围内的土壤研究提供了统一的标准和流程。
SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。此外,SQuaP的开发还借鉴了多种已有的研究和技术,包括从实验室数据中去除异常值的方法(Morellos等,2016)以及从卫星数据中识别裸土像素的方法(Demattê等,2014;van Wesemael等,2024)。这些方法的整合使得SQuaP能够同时处理高光谱和多光谱数据,确保数据的一致性和可靠性。
在实际应用中,SQuaP能够有效提升土壤属性预测的准确性,特别是在处理多光谱数据时。该协议的结构化设计使其能够适应不同的数据集和应用场景,从而提高土壤属性预测的准确性。此外,SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
SQuaP的开发不仅提升了数据质量,还为土壤科学研究提供了新的视角和方法。该协议能够适应不同的数据集和应用场景,使得研究人员可以更有效地处理土壤光谱数据,提高预测模型的性能。此外,SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。此外,SQuaP的开发还借鉴了多种已有的研究和技术,包括从实验室数据中去除异常值的方法(Morellos等,2016)以及从卫星数据中识别裸土像素的方法(Demattê等,2014;van Wesemael等,2024)。这些方法的整合使得SQuaP能够同时处理高光谱和多光谱数据,确保数据的一致性和可靠性。
SQuaP的实施不仅提升了数据质量,还为土壤科学研究提供了新的视角和方法。该协议能够适应不同的数据集和应用场景,使得研究人员可以更有效地处理土壤光谱数据,提高预测模型的性能。此外,SQuaP的实施还考虑了数据的可重复性和可验证性,通过发布代码和分析流程,使得其他研究者能够复现和验证该协议的效果。这种方法的结构化和模块化设计使其易于理解和应用,同时确保了不同数据来源之间的兼容性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号