基于多任务迁移学习和强化学习的水稻田施肥策略优化
《Agricultural Water Management》:Optimization of fertilization strategies for paddy fields based on multi-task transfer learning and reinforcement learning
【字体:
大
中
小
】
时间:2025年11月12日
来源:Agricultural Water Management 6.5
编辑推荐:
本研究提出一种融合试验数据、迁移学习和强化学习的混合方法(TL-RL),动态优化水稻田施肥策略,在减少氮磷化肥使用13.9%和10.4%的同时,通过添加5.44 t/ha的羟基黑炭实现产量提升7.02%,并显著降低稻田表层水总氮(20.83%)和总磷(39.13%)。SHAP分析揭示了温度、降水和化肥配比的关键影响,为精准农业决策提供可解释依据。
本研究探讨了一种结合田间试验数据、迁移学习和强化学习(TL-RL)的混合方法,以动态调整施肥管理策略,并通过与环境的交互实现最优施肥方案的自主学习。这一方法的提出,旨在解决传统施肥策略在复杂环境下难以有效优化的问题,特别是在减少氮磷污染的同时保障作物产量方面。随着农业生产的不断发展,化肥的过度使用已成为农业非点源污染的主要原因之一,而如何在保障作物产量的前提下实现施肥的优化,是实现农业可持续发展的关键。因此,本文致力于开发一种新的智能施肥决策系统,通过机器学习与环境数据的结合,为农业生产提供科学、有效的施肥方案。
### 1. 引言
施肥是提高作物产量的重要手段,但传统的施肥方式往往导致过量施用,造成资源浪费和环境污染。尤其是在小农户的农业实践中,由于缺乏科学的施肥指导,往往会出现化肥施用量远高于实际需求的情况。这种现象不仅浪费了农业资源,还对生态环境造成了严重影响,包括水体富营养化、土壤退化以及温室气体排放等。因此,优化施肥管理策略,探索能够减少生态风险同时确保作物产量的施肥方案,成为实现全球可持续发展目标的重要任务。
近年来,有机材料在减少化肥使用方面的潜力引起了广泛关注。特别是通过生物炭化技术生产的水热腐植质炭(HHC),因其对土壤改良和减少氮磷流失具有显著效果,被视为一种具有广泛应用前景的新型有机材料。然而,如何确定最佳的化肥与HHC配比,以及如何优化施肥策略以平衡水稻的养分吸收与农田中的氮磷污染,仍然是亟待解决的科学问题。
传统的施肥方案通常是基于田间试验数据制定的,但这些数据往往受到试验条件的限制,难以全面反映农田的动态变化。同时,随着农业生产的复杂性增加,施肥决策往往需要考虑多种目标,例如产量最大化、成本最小化以及环境污染的最小化,这使得人工决策变得异常复杂。因此,如何高效筛选能够反映农田动态变化并实现污染减少与产量提升之间最佳平衡的施肥策略,是农业可持续发展的核心挑战之一。
为了应对这些挑战,人工智能(AI)模型为施肥优化问题提供了新的思路。强化学习作为一种重要的AI学习方法,通过智能体与环境的交互,学习最优策略,已被广泛应用于农业领域,例如灌溉系统和病虫害防治等。然而,强化学习通常需要大量的数据进行训练,这在数据有限的情况下可能会导致学习过程陷入局部最优,无法全面探索各种状态和动作的组合。为此,本文提出了一种融合迁移学习与强化学习的混合模型,以降低强化学习对数据的依赖,提高其在复杂环境下的适应能力。
### 2. 材料与方法
#### 2.1 数据收集与预处理
本研究的数据来源于东北农业大学在黑龙江省开展的水稻田间试验。试验从2024年5月至10月进行,旨在通过施用水热腐植质炭(HHC)减少化肥的使用量。试验中采用的水稻品种为“东农430”,灌溉方式为交替湿润干燥模式。试验设置了三种施肥模式:1)传统施肥(N: 180 kg/ha,P?O?: 90 kg/ha,K?O: 90 kg/ha);2)减少10%化肥施用量(N: 162 kg/ha,P?O?: 81 kg/ha,K?O: 90 kg/ha);3)减少20%化肥施用量(N: 144 kg/ha,P?O?: 72 kg/ha,K?O: 90 kg/ha)。同时,试验还设置了三种HHC施用量(3 t/ha、4.5 t/ha、6 t/ha)以及对照组(不施用水热腐植质炭)。整个试验采用了完全随机区组设计,共设置了10种处理方式。
在试验过程中,研究人员在水稻的生殖期收集了田间水样,并使用全自动间歇化学分析仪(型号:smartchem2000)测量了水样中的总氮(TN)和总磷(TP)含量。样本采集时间为播种后第1、2、4、6、13、16、20、23、26、41、54、68、83和95天,共计14次。水稻产量则在成熟期进行测量。此外,试验期间还收集了温度和降水量等气象数据,这些数据对于理解施肥策略对农田环境的影响至关重要。
#### 2.2 模型构建与算法选择
本研究采用迁移学习和强化学习相结合的方法,以优化水稻田的施肥策略。迁移学习主要用于从已有的施肥试验数据中提取关键特征,并将其迁移到新的目标环境中。具体而言,使用LSTM(长短期记忆网络)模型学习源域中的时间序列特征,构建TP和TN的预训练模型;同时,使用RF(随机森林)模型学习源域中的静态特征,构建产量预训练模型。这些预训练模型随后通过目标域数据进行微调,以适应新的环境条件。
为了提高模型的适应性,研究引入了动态奖励机制,即在训练过程中根据训练进度调整污染与产量的权重。此外,采用对抗训练的思想对特征分布进行对齐,并通过数据增强技术提高目标域样本的多样性。这些方法不仅增强了模型的泛化能力,还提高了其在不同地理和气候条件下的适应性。
强化学习部分采用了PPO(Proximal Policy Optimization)算法,这是一种在连续动作空间中优化策略的常用方法。PPO算法的参数设置包括学习率(1e-4)、每样本步数(2048)、批量大小(128)、训练轮次(20)、折扣因子(0.995)、GAE参数(0.98)、裁剪范围(0.1)、熵系数(0.001)以及梯度范式的上限(0.5)。环境通过`DummyVecEnv`进行封装,并设置了评估回调函数,以确保模型在训练过程中能够不断优化。最终,模型在6000个时间步中进行训练,并通过评估和可视化最优施肥策略及平均效果来分析其性能。
在强化学习的训练过程中,智能体的决策空间包括氮肥和磷肥的减少比例(范围为[10%, 50%])以及有机肥的施用量(范围为[0, 6] t/ha)。观察空间则包括气象数据和施肥数据,如温度、降水、湿度、氮肥施用量、磷肥施用量和有机肥施用量。通过这种方式,模型能够全面捕捉施肥策略对农田环境和作物产量的影响。
#### 2.3 模型的可解释性
为了提高模型的可解释性,研究采用了SHAP(Shapley Additive Explanations)方法,这是一种用于解释复杂机器学习模型决策过程的技术。SHAP值能够量化每个特征对模型输出的贡献,从而揭示模型在预测总氮(TN)和总磷(TP)浓度时的关键因素。此外,研究还利用树模型的内置特征重要性分析,计算每个输入变量对模型预测结果的贡献度。这种方法不仅提高了模型的可解释性,还为农业管理提供了更加直观的决策支持。
为了进一步评估强化学习算法在施肥优化任务中的鲁棒性,研究还进行了系统的敏感性分析。分析了算法超参数配置(如学习率、训练步数、批量大小、折扣因子和裁剪范围)以及奖励函数权重设计对策略性能的影响。通过网格搜索方法,系统评估了关键超参数的敏感性,量化了它们对策略收敛速度和最终性能的影响。同时,通过设计权重扰动实验,研究分析了奖励函数设计在多目标优化中的敏感性,确保策略在不同权重配置下保持稳定性能。
#### 2.4 强化学习与施肥策略优化
在强化学习的训练过程中,模型的目标是保证水稻正常生长的同时减少农田表层污染。优化问题被形式化为一个带约束的马尔可夫决策过程(MDP)。在训练过程中,智能体需要在施肥策略的决策空间中选择最优动作,以实现污染控制和产量提升之间的平衡。为了提高训练效率,研究采用了Adam优化器,这是一种结合动量和自适应学习率的梯度优化算法,具有较高的计算效率和较低的内存需求。
在奖励函数的设计中,研究采用了一个动态的奖励机制,以平衡污染控制和产量提升的目标。具体而言,污染惩罚项为:如果总氮浓度超过6.0 mg/L,惩罚值为(总氮浓度 - 6.0)^1.5;如果总磷浓度超过1.0 mg/L,惩罚值为(总磷浓度 - 1.0)^1.5。这些惩罚项对污染浓度超过阈值的情况施加非线性、递增的惩罚,以促使智能体优先考虑环境约束。同时,产量奖励项为分段函数:当产量低于6000 kg/ha时,给予惩罚;当产量在6000 kg/ha至目标产量9000 kg/ha之间时,奖励随产量线性增加;当产量超过9000 kg/ha时,给予超额奖励。通过动态调整污染权重(从0.6逐渐降低至0.3)和产量权重(从0.1逐渐增加至0.4),智能体能够在训练初期优先考虑环境约束,而在训练后期则更加关注产量的提升。
此外,研究还设置了环境约束条件,即总氮浓度必须低于6.0 mg/L,总磷浓度必须低于1.0 mg/L,水稻产量必须达到5000 kg/ha以上。任何违反这些约束的行为都会在奖励函数中施加显著的惩罚(-5或-3)。这些约束条件确保了模型在优化过程中不会偏离农业生产的实际需求。
### 3. 结果与讨论
#### 3.1 数据准备与模型预测性能
本研究通过系统评估迁移学习在生态建模中的可行性,发现源域和目标域在温度和降水等参数上具有较高的分布重叠度(IQR重叠度>65%),这为特征迁移提供了合理的基础。然而,湿度、氮肥施用量、有机质施用量和产量等参数在两个域之间存在显著差异。因此,研究采用了分层迁移策略:对于分布重叠度高的参数,直接迁移;对于分布差异较大的参数,采用线性变换算法进行调整;对于分布差异显著的参数,采用子域自适应算法进行处理。
在微调后的模型预测性能方面,研究显示,模型在预测TP、TN和产量方面的R2值分别为0.8、0.75和0.89,表明模型对实际值的拟合能力较强。同时,MAE(平均绝对误差)分别为0.67、0.14和324.15,RMSE(均方根误差)分别为0.87、0.17和455.26,进一步验证了迁移学习模型的预测精度。
#### 3.2 强化学习训练过程
强化学习的训练过程展示了智能体在学习最优施肥策略时的动态变化。在训练初期(0–1000个时间步),奖励曲线波动较大,这表明智能体正在通过试错的方式探索不同的施肥策略。奖励值的下降可能源于两种极端情况:一是化肥施用量减少过多,导致产量显著下降;二是有机肥施用量不合理,未能有效减少表层污染。这一阶段符合强化学习的预期行为,即通过广泛的探索积累经验,为后续策略优化打下基础。
随着训练的进行(1000–6000个时间步),奖励曲线逐渐趋于平稳,表明智能体已经找到了一种能够平衡产量与污染的施肥策略。这一结果验证了PPO算法的有效性,即通过裁剪目标函数避免策略的剧烈更新,实现稳定的策略优化。最终的施肥策略包括减少13.9%的氮肥、10.4%的磷肥,并施用水热腐植质炭5.44 t/ha。这种“部分替代”策略能够在减少化肥用量的同时,维持水稻产量,并有效降低表层污染。
#### 3.3 最优策略的数值结果
在本研究中,通过三维响应曲面图展示了化肥减少与有机质施用量对TN和TP浓度以及水稻产量的影响。结果显示,随着氮肥和磷肥减少比例的增加,TN和TP浓度显著下降。然而,当减少比例超过一定阈值后,水稻产量开始逐渐减少。因此,最优策略需要在减少化肥施用量的同时,确保产量的稳定。
具体而言,本研究采用的PPO算法在减少氮肥和磷肥施用量的同时,实现了对水稻产量的提升。相比传统施肥方法,该策略将氮肥施用量减少了13.9%,磷肥施用量减少了10.4%,并施用水热腐植质炭5.44 t/ha。这些调整不仅显著降低了农田表层的氮磷浓度,还提高了水稻产量,达到了产量维护与污染控制的协同优化。
#### 3.4 模型评估
本研究的评估方案有效检验了策略的泛化能力,并防止了过拟合。具体而言,训练后的策略在独立初始化的环境实例中进行测试,并进行了10轮独立评估。评估过程中,策略以确定性模式运行,以确保评估过程不受训练环境内部状态的影响,从而客观反映策略在相同数据分布下不同初始条件和决策序列中的表现。这种评估设计有效地验证了策略的泛化能力,避免了对训练环境的过度依赖。
与贝叶斯优化方法相比,本研究提出的TL-RL模型在处理复杂的多目标权衡问题上展现出独特的优势。尽管综合奖励函数值较低,但TL-RL方法发现了一种更具有环境突破性的策略:通过减少化肥施用量,将农田表层总氮浓度从6.84 mg/L降低至5.81 mg/L,这表明在复杂环境约束下,TL-RL方法能够更有效地优化环境目标。这种优化在产量损失仅为0.4%的情况下实现,说明该方法在保持产量的同时,显著降低了环境污染。
此外,研究还对农业投入进行了比较分析。TL-RL策略的氮肥施用量减少了50%,远高于贝叶斯优化方法的10%。尽管TL-RL的综合奖励函数值相对较低,但其在环境目标上的表现更为出色,表明传统奖励函数设计可能未能充分捕捉环境效益的长期价值。同时,TL-RL策略在磷肥减少方面也表现出轻微的改善,进一步验证了该方法在综合污染物控制方面的潜力。
#### 3.5 模型的可解释性
为了提高模型的可解释性,研究采用了特征重要性分析和SHAP值分析。特征重要性分析显示,降水是影响TN浓度的最关键因素(重要性为0.356),其次是温度(0.327)和湿度(0.312)。对于TP浓度,温度是最重要的影响因素(重要性为0.181),其次是降水(0.173)和湿度(0.170)。对于水稻产量,氮肥施用量(0.437)和磷肥施用量(0.411)是两个最重要的影响因素,而HHC(0.149)的影响相对较小。
进一步的SHAP值分析显示,氮肥和磷肥施用量对TN和TP浓度具有显著的正向影响,表明它们是控制这两种污染物流失的主要因素。而湿度、降水和HHC则表现出显著的负向影响,说明这些因素能够抑制污染物的流失。这一现象可能与高湿度维持土壤孔隙水连续性、促进污染物向深层渗透有关。此外,HHC中的腐植酸和酚羟基能够与磷酸盐形成稳定的复合物,从而增强土壤的离子交换能力,促进土壤团聚体的形成,降低TN和TP在径流中的流失风险。
#### 3.6 局限性与未来研究方向
尽管本研究提出了一种有效的智能施肥策略,但在实际部署过程中仍面临一些挑战。首先,关键水质参数的实时监测技术尚不成熟,导致反馈数据存在延迟,这可能影响模型的优化效果。其次,有机肥的物理特性差异可能影响变量施肥的准确性。此外,研究使用的模拟环境对水文、生物地球化学和作物生理过程进行了简化,这导致训练策略与实际环境之间存在一定的差距。特别是极端气候反馈、土壤微生物反馈和田间异质性等因素,可能会影响策略在现实中的表现。
未来的研究方向包括:通过引入物理机制模型和长期田间监测数据,对模拟环境进行系统校准,以提高模型的现实适应性。同时,需要在感知技术、农业机械操作和算法安全性方面取得突破,以实现从模拟到实际农田的顺利过渡。此外,研究还建议未来可以结合传感器数据和长期田间监测,提高模型输入的现实性,并引入更多环境指标,构建更全面的奖励函数,以进一步提升迁移学习的跨区域泛化能力。
### 4. 结论
本研究开发了一种结合田间试验数据、迁移学习和强化学习的混合方法,能够动态调整施肥管理策略,并通过与环境的交互实现最优施肥方案的自主学习。该方法充分利用了田间试验数据的有效性,克服了强化学习对大量数据依赖的缺点。研究结果表明,相比传统施肥方法,采用13.9%的氮肥减少、10.4%的磷肥减少以及5.44 t/ha的HHC施用量,可以显著提升水稻产量并有效降低农田表层的氮磷浓度。此外,SHAP分析进一步揭示了优化施肥和HHC施用量策略在特定降水和温度条件下对TN和TP流失以及水稻产量的关键影响。
未来的研究可以进一步探索如何结合传感器数据和长期田间监测,提高模型输入的现实性。同时,可以引入更多环境指标,构建更加全面的奖励函数,以提升迁移学习在不同区域的泛化能力。此外,还需在感知技术、农业机械操作和算法安全性方面取得突破,以实现从模拟到实际农田的顺利过渡。通过这些努力,最终目标是实现农业生产的可持续发展,减少非点源污染,同时保障作物产量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号