基于Transformer多模态学习的作物产量模拟内在可解释性研究
【字体:
大
中
小
】
时间:2025年10月12日
来源:Computers and Electronics in Agriculture 8.9
编辑推荐:
本文针对多模态学习在农业产量预测中模型可解释性不足的问题,研究了基于Transformer架构的内在可解释性方法。研究人员通过整合卫星时序、气象数据、地形高程和土壤属性四模态数据,提出了注意力 rollout (AR) 和加权模态激活 (WMA) 等解释方法,并与Shapley值采样 (SVS) 进行对比。结果表明Transformer模型在亚田块和田块级别的R2分别提升0.10和0.04,且AR方法能提供更可靠的时序归因。该研究为农业遥感领域多模态网络的可信决策提供了新思路。
在精准农业和数字农业快速发展的今天,准确预测作物产量对于保障粮食安全、优化农业管理至关重要。政府机构如美国农业部(USDA)、欧盟统计局(Eurostat)以及联合国粮农组织(FAO)都需要可靠的产量数据来制定政策。然而,作物产量受到众多复杂因素的共同影响,包括气候条件、土壤特性、地形地貌以及作物生长过程中的遥感监测数据等。传统方法难以有效整合这些异构数据源,而机器学习,特别是多模态学习(Multimodal Learning),为从多源数据中学习复杂规律提供了可能。
尽管多模态学习模型在预测精度上表现出色,但其复杂的“黑箱”特性使得理解和信任模型的决策过程变得困难。在农业这种高风险领域,模型的不可解释性严重制约了其实际应用。用户不仅需要知道模型预测的结果,更希望了解模型是依据哪些因素、在何时做出了这样的判断。例如,卫星影像中的某个特征是否比一场及时的降雨对最终产量影响更大?模型是否捕捉到了作物关键生长期的环境信号?这些问题都指向了对模型可解释性(Explainable AI, XAI)的迫切需求。
以往的研究大多聚焦于提升模型精度,设计复杂的多模态融合架构,而对模型内在的可解释性探索不足。一些工作采用事后解释(Post-hoc)方法,如SHAP(SHapley Additive exPlanations),这些方法将训练好的模型视为黑箱,通过扰动输入来估计特征重要性。然而,这类方法可能引入误差,且与模型内部机制脱节,其忠实性(Faithfulness)存疑。相比之下,利用模型自身结构进行解释的内在可解释性(Intrinsic Explainability)方法,例如基于注意力机制(Attention Mechanism)的分析,被认为能提供更忠实于模型的解释。尤其是在Transformer模型中,自注意力(Self-Attention)机制天然地提供了每个输入元素对输出的贡献度线索,为深入理解模型决策打开了窗口。
为了解决上述挑战,发表在《Computers and Electronics in Agriculture》上的这项研究,题为“Intrinsic explainability of multimodal learning for crop yield simulation”,进行了一项系统性的探索。研究人员旨在回答几个核心问题:哪种多模态网络架构最适合于历史产量模拟任务?如何分析模型的中间表征?哪种时序特征归因方法最可靠?这些归因结果能否提供农学相关的见解?以及,哪种模态重要性评估方法最可信?
为了开展研究,研究人员构建了一个涵盖阿根廷、乌拉圭和德国三国,包含玉米、大豆、小麦和油菜籽四种作物的庞大数据集。数据模态包括Sentinel-2卫星时间序列(12个光谱波段及场景分类层)、ERA5再分析气象数据(日最高温、平均温、最低温和降水总量)、土壤属性(如阳离子交换量CEC、土壤有机碳SOC、pH值等,来自SoilGrids平台)和地形高程数据(SRTM DEM及其衍生的坡度、坡向、曲率等地形指数)。产量真值来自联合收割机采集的高分辨率产量图,并在像素级别(亚田块级)进行建模,这使得研究能够揭示田块内部的空间变异。数据经过严格的预处理、空间配准(统一至10米分辨率)和标准化。研究采用中间融合策略,即先使用特定模态的编码器分别处理各模态数据,再将学习到的表征进行拼接,最后通过线性回归层预测产量。
在模型架构方面,研究团队对比了多种神经网络作为时序模态(卫星和气象)的编码器,包括一维卷积神经网络(1D-CNN)、长短时记忆网络(LSTM)、注意力LSTM(ALSTM)以及Transformer。静态模态(土壤和DEM)则使用多层感知机(MLP)处理。经过超参数优化和验证集筛选,最终确定以Transformer为基础的模型表现最佳。
在可解释性方法上,研究重点利用了Transformer的自注意力机制。他们评估了两种内在解释方法:注意力 rollout(AR)和通用注意力(GA)。AR通过逐层相乘注意力矩阵来追踪信息从输入到最终输出的流动;GA则结合了注意力权重和梯度信息进行反向传播。作为对比,研究还采用了模型无关的事后解释方法——Shapley值采样(SVS)来估计特征重要性。此外,针对模态级别的贡献,研究人员提出了一种新方法——加权模态激活(WMA),该方法基于模型最后回归层的权重来推断各模态的贡献比例。为了评估这些解释方法的可靠性,研究使用了敏感性(Sensitivity)和不忠实性(Infidelity)两个指标。
研究人员首先比较了不同网络架构在产量模拟任务上的性能。结果表明,基于Transformer的模型在亚田块(像素)级别和田块(平均产量)级别均取得了最高的决定系数(R2),分别达到0.52和0.78,其均方根误差(RMSE)和平均绝对误差(MAE)也最低。具体而言,Transformer模型在亚田块级别的R2比1D-CNN和循环神经网络分别高出0.10和0.11。在推理速度方面,在GPU上,循环网络最快,Transformer次之,但在CPU上,1D-CNN最快。综合考虑精度和可解释性潜力,研究选择了一个相对简单(单头注意力)的Transformer模型作为后续解释分析的基础模型。定性分析通过可视化两个代表性田块的预测图和误差图,进一步证实了Transformer模型在捕捉田块内产量空间变异方面的优势。
通过在线性分类探针(Linear Classifier Probe)上评估模型中间层的表征能力,研究发现卫星数据编码器的表征与最终预测值的线性相关性最强,且随着网络层深的增加而增强,表明Transformer层确实在学习更具判别性的特征。对注意力权重的分析显示,在同一田块内,前几层Transformer的注意力模式非常相似,但最后一层的注意力分布则表现出更大的像素间差异,且这种差异与预测值的差异没有显著相关性。通过计算注意力分布的香农熵(Shannon Entropy),研究发现气象模态的注意力熵普遍低于卫星模态,说明模型倾向于将气象信息的重要性集中在更少的关键时间点上,而卫星信息的重要性则相对分散在整个生长季。
对比AR、GA和SVS三种方法生成的时序特征重要性(Temporal Attribution)图谱发现,AR方法产生的归因结果在同一田块内的不同像素间具有最高的一致性(通过余弦相似度衡量),表明其最稳定。定量评估使用的不忠实性和敏感性指标也显示,AR的敏感性得分最低,说明其对输入的小扰动最不敏感,稳定性最好。而GA方法的敏感性较高,结果波动较大。熵分析再次确认,AR倾向于将重要性集中在更少的时间点(熵更低),而GA的结果则更分散。在某些具有物候期(Phenology Stage)信息的田块中,研究人员将归因峰值与作物关键生长阶段(如营养生长、开花、结荚鼓粒等)进行对照,发现模型确实在某些已知的关键期(如开花期)赋予了较高的重要性,这为解释结果提供了一定的农学依据。
为了探究模型是否关注特定的极端天气事件,研究人员使用决策树模型来预测各时间点的天气数据归因值。结果表明,在某些农场的数据中,归因值的高低与距收获的天数这一时间因素强相关,而在另一些案例中,特定的温度条件(如低温)也被识别为高归因值的判别条件。这提示模型可能确实学习到了一些与天气胁迫相关的模式。
在评估整个模态(Modality)对预测的贡献时,两种方法得出了迥异的结果。基于Shapley值的SVS方法显示,卫星模态占据了绝对主导地位,平均贡献度高达89.5%,而土壤和地形模态的贡献均不足2%。相反,基于模型内部参数的新方法WMA则给出了更均衡的分布:土壤模态贡献最大(41.3%),其次是卫星(29.4%),地形和气象模态贡献较小(约15%和14%)。这种巨大差异凸显了不同解释方法背后的机制差异,SVS考虑了特征间的复杂交互,而WMA仅反映了最终回归层的线性加权关系。
归纳研究结论和讨论部分,本研究系统地论证了基于Transformer的多模态学习模型在作物产量模拟中的有效性和其内在可解释性的价值。研究表明,Transformer架构不仅性能优越,其自注意力机制还为理解模型决策提供了独特窗口。在多种解释方法中,注意力Rollout(AR)被证明是一种可靠且高效的内在时序归因工具,其稳定性优于通用注意力(GA)和模型无关的Shapley值采样(SVS)。然而,在模态重要性评估上,SVS和WMA方法得出的结论存在显著分歧,这反映了当前可解释性研究面临的挑战:缺乏绝对的“地面真值”来验证哪种解释更“正确”。研究的重要意义在于为农业遥感领域提供了首个针对多模态Transformer模型的系统性可解释性分析框架。它强调了在追求模型性能的同时,必须重视其透明度和可信度。将模型决策与农学知识关联起来,有助于建立用户对AI模型的信任,推动其在实际农业决策中的应用。未来的工作需要在更多作物和区域上验证这些发现,并进一步探索如何利用解释结果来指导模型改进,例如通过引入领域知识约束模型的注意力机制,从而最终实现性能与可解释性俱佳的下一代农业人工智能模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号