可解释性表格强化学习在抗干扰作物轮作策略中的性能超越深度强化学习

【字体: 时间:2025年06月13日 来源:Computers and Electronics in Agriculture 7.7

编辑推荐:

  为解决深度强化学习(DRL)在农业决策中可解释性差和抗干扰能力弱的问题,研究人员采用表格强化学习(RL)方法开发了抗干扰、可解释的作物轮作策略。研究表明,表格RL在固定奖励和随机奖励环境下均能匹配或超越DRL性能,并通过加权Q值和DynaQ规划优化提升了策略稳健性。该研究为农业关键基础设施管理提供了可追溯、适应性强的决策支持工具。

  

在气候变化和人口增长的双重压力下,全球粮食生产系统面临严峻挑战。作物轮作作为可持续农业的核心实践,其规划质量直接影响土壤健康和农民收入。然而,当前基于深度强化学习(DRL)的决策系统存在"黑箱"问题,且难以应对天气波动、市场价格变化等现实干扰因素。奥地利研究人员在《Computers and Electronics in Agriculture》发表的研究,通过创新性地应用表格强化学习技术,开发出兼具高性能和可解释性的作物轮作策略。

研究团队采用三种表格RL算法(1-step Q-learning、DynaQ和Expected SARSA)与DRL基准模型对比,构建了包含26种奥地利主要作物的五步轮作规划系统。关键技术包括:基于历史产量数据构建随机奖励分布,通过状态空间扩展解决马尔可夫性质违反问题,开发加权argmax函数和DynaQ规划优化等抗干扰措施,并邀请农民和农学专家对策略进行实地评估。

在非随机奖励环境下,表格RL表现出显著优势。DynaQ在15种起始作物中产生最优策略,Expected SARSA更在18种情况下领先,其平均奖励较DQN提高52%。通过Q值轨迹树和土壤氮素-产量关联图等可视化工具,决策过程变得透明可追溯。当引入模拟市场波动的随机奖励后,研究团队发现:传统RL性能平均下降12%,但通过创新设计的抗干扰措施——包括基于线性回归的Q值预测(使用最后25%更新数据)和DynaQ的三种规划策略(末次观测、随机采样、均值估计)——使DynaQ集成模型的性能反超非随机环境7.4%。

专家评估验证了随机奖励策略的实用性。在六类起始作物(春大麦、豌豆等)对比中,9项偏好选择指向随机奖励策略,且83%的评估认为其经济风险"可接受"或更低。有机农学家特别肯定了策略对土壤氮素平衡的维护作用,而可视化工具使87%的受访者表示更可能采纳AI建议。研究同时揭示了DRL的局限性:在相同训练步数下,其策略多样性仅为表格RL的1/3,且无法提供决策依据。

这项研究开创性地证明了表格RL在农业决策中的双重优势:一方面通过模块化设计(如DynaQ的环境模型)实现复杂规则整合,另一方面借助表格结构天然支持决策追溯。研究者提出的"状态-动作对历史分析"方法,可推广至其他存在奖励波动的时序决策场景。未来工作将纳入土壤磷钾数据、实时市场价格和地块级地理信息,推动AI农艺决策从实验室走向田间地头。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号