《Scientific Reports》:Integrating transformer-based learning and Sentinel-2 bare soil composites for soil organic carbon mapping in the black soil region of Northeast China
编辑推荐:
本研究针对传统土壤有机碳(SOC)制图中裸土反射率提取困难与小样本建模精度不足的难题,创新性地融合Sentinel-2多时相裸土复合影像与Transformer基础模型TabPFN,在东北黑土区实现了10米分辨率的高精度SOC制图(R2=0.78,RMSE=1.90 g kg-1)。结果表明P50复合策略优于P90,TabPFN模型在小样本(N=174)条件下显著超越CNN与XGBoost,SHAP分析揭示短波红外波段(B12)与降水为关键驱动因子。该研究为数据稀缺区的碳储量评估提供了可解释、可扩展的技术框架。
在东北黑土区,肥沃的土壤支撑着中国重要的粮食生产基地。然而,这片“耕地中的大熊猫”正面临土壤有机碳(SOC)流失的威胁。准确掌握SOC的空间分布,对保障粮食安全、实施固碳减排至关重要。传统土壤采样方法耗时费力,难以捕捉田间尺度的细微差异;而遥感技术虽能快速覆盖大范围,却长期受限于两个技术瓶颈:一是农作物生长期间植被覆盖导致难以获取纯净的裸土光谱信号,二是大多数高精度机器学习模型需要大量样本支撑,在实际土壤调查中往往“巧妇难为无米之炊”。
针对这些挑战,吉林农业大学吴松教授团队在《Scientific Reports》上发表了一项创新研究。他们巧妙地将多时相Sentinel-2卫星影像合成的裸土复合图,与一种名为TabPFN(Tabular Prior-data Fitted Network)的Transformer前沿人工智能模型相结合,在样本量有限(仅174个)的情况下,成功绘制出东北黑土区10米分辨率的土壤有机碳高精度地图。
关键技术方法概述
研究团队在2022年于吉林省农安县和德惠市采集了174个0-20厘米深度的表层土壤样本,采用重铬酸钾氧化法(Walkley-Black)测定SOC含量。利用Google Earth Engine平台获取2021-2023年每年4月15日至5月31日(春耕前裸土期)的Sentinel-2影像,应用NDVI阈值(0.1-0.4)提取裸土像元,并比较了P50(中位数)和P90(第90百分位数)两种裸土影像复合策略。建模时,除了Sentinel-2的10个光谱波段,还引入了气候(年均温TMP、降水PRE、潜在蒸散发PET)、地形(数字高程模型DEM、地形位置指数TPI)及光谱指数(如黏土指数CI)等环境协变量。系统评估了TabPFN、卷积神经网络(CNN)和极端梯度提升(XGBoost)三种算法的性能,并通过100次Bootstrap(自助法)抽样验证模型稳定性,最后利用SHAP(SHapley Additive exPlanations)方法对最佳模型进行解读。
研究结果
模型性能比较
土壤样本的SOC含量变化范围较大(4.05–25.29 g kg-1),为模型训练提供了良好的数据基础。性能评估显示,TabPFN模型结合P50复合策略取得了最佳预测效果,其平均决定系数R2为0.781,均方根误差RMSE为1.902 g kg-1,性能显著优于CNN(R2=0.737, RMSE=2.093 g kg-1)和XGBoost(R2=0.715, RMSE=2.174 g kg-1)。P90复合策略下所有模型精度均略有下降,但模型性能排名保持不变。这表明P50复合能提供更稳定、更具代表性的土壤反射率信息。
散点图分析直观地展示了TabPFN的预测值最接近1:1线,在整个SOC范围内分布更集中、偏差更小,表现出最优的预测一致性和可靠性。
SOC空间分布制图
基于最优的TabPFN模型生成的10米分辨率SOC空间分布图,清晰揭示了研究区内SOC含量的显著空间异质性。局部放大图与Sentinel-2合成影像的对比显示,该模型能有效捕捉田块尺度的土壤条件细微差异,例如在起伏地形中,有机碳在沉积区域富集的模式清晰可见。这幅高分辨率碳图为评估异质农田景观的土壤肥力和碳储量提供了详细的基线数据。
模型机理解读
SHAP分析为模型决策提供了机理性洞察。影响SOC预测最重要的10个变量依次是短波红外波段B12、年均降水量(PRE)、年均温(TMP)、黏土指数(CI)、波段B11、潜在蒸散发(PET)、DEM、蓝光波段B2、波段B7和近红外波段B8。其中,B12的影响力一骑绝尘,其反射率与SOC预测值呈负相关(反射率越低,SOC预测值越高),这符合有机质在短波红外区域有强烈吸收特征的光谱学原理。PRE呈现正效应,表明更多降水通过促进生物量生产从而有利于SOC积累。TMP则显示负效应,符合温度升高加速有机质分解的规律。SHAP依赖图进一步揭示了PRE和TMP之间存在正交互作用,暗示在降水充足时,升温带来的分解效应可能被增强的植物生产力所缓冲。CI的正影响印证了黏土矿物通过有机-矿物结合保护有机碳的理论。
研究结论与意义
本研究成功论证了在样本量有限的现实条件下,整合多时相Sentinel-2裸土复合影像与TabPFNTransformer模型,是实现农田土壤有机碳高精度制图的有效途径。它不仅明确了P50复合策略在异质农田区的优越性,更是首次将TabPFN这一面向小样本设计的Transformer基础模型引入SOC估算领域,展现出超越传统方法的性能。模型的成功在于其先验知识拟合和注意力机制,能从小数据中有效学习并捕捉环境变量间复杂的非线性关系。SHAP分析则从数据中挖掘出了与土壤学原理高度吻合的机制,增强了结果的可解释性和科学性。
该研究提出的技术框架具有实用性和可扩展性,为在土壤采样成本高昂的广大农业区开展精细化的碳监测、评估和管理提供了可靠工具。未来,通过构建更大范围的土地光谱数据库、融合多源传感器数据(如Sentinel-1 SAR用于水分和残茬识别),以及发展耦合了土壤生物地球化学过程的机理-机器学习混合模型,有望进一步提升模型的泛化能力和物理合理性,为应对气候变化和保障粮食安全提供更强大的决策支持。