CART(分类与回归树)规则引导的最大熵(MaxEnt)模型构建及其在西北太平洋日本鲭(Chub Mackerel, Scomber japonicus)渔场预报中的应用
《Fishes》:CART Rule-Guided MaxEnt Model Construction and Its Application in Fishing Ground Prediction of Chub Mackerel in the Northwestern Pacific Ocean
编辑推荐:
摘要:日本鲭(Scomber japonicus)是西北太平洋重要的经济大洋性鱼类,准确识别其渔场分布可为渔业管理与生态研究提供科学依据。本研究基于作业次数(fishing effort)及5个海洋环境因子——海表温度[SST]、叶绿素a浓度[CHL]、SST
摘要:日本鲭(Scomber japonicus)是西北太平洋重要的经济大洋性鱼类,准确识别其渔场分布可为渔业管理与生态研究提供科学依据。本研究基于作业次数(fishing effort)及5个海洋环境因子——海表温度[SST]、叶绿素a浓度[CHL]、SST梯度[GSST]、海表面高度[SSH]和海流速度,构建了CART(Classification and Regression Tree)规则引导的最大熵(MaxEnt, Maximum Entropy)模型。研究人员首先训练CART模型提取if-then决策规则,将其转化为约束特征函数(feature functions)嵌入MaxEnt进行训练;设计4种规则组合与特征函数输出方案,并利用ROC曲线在验证集上评估模型性能;最后使用2024年4—11月现场环境与渔业数据独立检验模型。结果表明:预测渔场与实际月度渔场空间吻合度高,预测的洄游路线与作业渔船移动轨迹一致;模型平均AUC为0.722±0.033,灵敏度为0.604,特异度为0.834,阴性预测值(NPV)为0.978。结论:CART规则引导的MaxEnt模型融合了CART的可解释性与MaxEnt的预测能力,可有效预测西北太平洋日本鲭渔场的空间分布,为渔业资源管理与生态研究提供技术支持。
本文解读对象为发表于《Fishes》的研究论文《CART Rule-Guided MaxEnt Model Construction and Its Application in Fishing Ground Prediction of Chub Mackerel in the Northwestern Pacific Ocean》。
研究背景方面,日本鲭(Scomber japonicus)是西北太平洋重要的经济洄游鱼类,是中国、日本、俄罗斯等国远洋渔业的主要捕捞对象。近年来其总产量呈下降趋势,且受气候变化(如海表温度异常、洋流变动)及过度捕捞影响,日本鲭的洄游路线、聚集模式和渔场分布表现出显著的时空异质性。传统依赖经验判断或单一模型的渔场预报方法难以满足精准捕捞与可持续管理需求。机器学习方法(如树模型、MaxEnt最大熵模型)已被广泛用于渔业资源评估和渔场预测——树模型(如CART、提升回归树BRT)优势在于可解释性强,能提取明确的决策规则;MaxEnt模型在处理小样本及复杂环境梯度时预测精度高,但可解释性不足。如何融合不同模型优势构建兼具强可解释性与高预测精度的混合模型,是渔业数据分析中亟待解决的关键问题。本研究以西北太平洋日本鲭为对象,整合2014—2023年渔业日志与多源遥感环境数据,采用Bootstrap增强规则多样性,构建CART规则引导的MaxEnt渔场预报模型,并通过对比不同方案筛选最优建模框架,最终用2024年独立数据进行验证,为日本鲭资源可持续利用与管理提供参考。
关键技术方法:研究人员选用2014—2023年中国西北太平洋公海光诱围网日本鲭捕捞记录(含作业日期、经纬度、作业次数haul、渔获量)作为渔业样本队列,环境变量选取月份(Month)、海表温度(SST, ℃)、叶绿素a浓度(CHL, mg/m3)、海表面高度异常(SLA/SSHA, m)、SST梯度(GSST, ℃/km)及海流速度,SST/CHL/SLA/海流源自Copernicus Marine Data Store,GSST按文献方法计算;数据统一重采样至0.5°×0.5°月度网格并按时空双键匹配。以月度作业次数中位数划分渔场/非渔场,2014—2023年按7∶3划分为训练集与验证集,2024年数据作独立测试集。CART模型基于Bootstrap重抽样训练多棵不剪枝决策树,提取单变量决策规则(SVDRs)与多变量决策规则(MVDRs);将规则转化为二值特征函数(BFF, 满足规则=1否则=0)与连续特征函数(CFF, 直接取CART输出的类别概率),组合形成SVDR+BFF、MVDR+BFF、SVDR+CFF、MVDR+CFF四种MaxEnt建模方案。采用批量梯度下降(BGD)训练MaxEnt求解特征函数权重,用验证集ROC曲线计算Youden指数确定最佳概率阈值划分渔场,以Schoener's D量化预测概率与作业次数的空间重叠度,用AUC、灵敏度(sensitivity)、特异度(specificity)、阴性预测值(NPV)及混淆矩阵评价模型性能。
研究结果如下:
3.1. Monthly Spatiotemporal Distribution of Historical Operating Positions——研究人员对2014—2023年历史作业位置按月统计发现,4—6月作业集中分布于145°E—155°E、35°N—40°N;7—8月向东北扩展至150°E—160°E、38°N—43°N;9—11月逐渐南迁至150°E—165°E、35°N—43°N,整体呈现4—8月由西南向东北扩展、9月后向南回迁的时空动态,且作业分布与沿岸国专属经济区(EEZ)界线存在明显空间关联。
3.2. Relationships Between Seasonal and Environmental Factors and Fishing Effort——研究人员分析各环境因子与作业次数的季节关系表明,SST适宜值从4月的约12.8℃偏移至7—8月的18.2—19.2℃;CHL峰值对应浓度从4月0.68 mg/m3降至8月0.36 mg/m3;适宜海流速度从4月0.125 m/s升至6月0.275 m/s再降至11月0.025 m/s;SST梯度峰值位置从4月0.014 ℃/km移至11月0.05 ℃/km;SSHA峰值从?0.125 m移至0.075 m,说明各环境因子适宜区间随季节推移发生规律性变化。
3.3. Selection of Optimal Combination Scheme of Rules and Feature Functions——研究人员对比CART单独模型与四种CART规则引导MaxEnt方案在训练与验证阶段的月度AUC发现:训练阶段CART(AUC 0.684—0.843)与SVDR+BFF(0.695—0.819)表现最差,MVDR+BFF(0.762—0.875)和SVDR+CFF(0.750—0.863)居中,MVDR+CFF最优(AUC 0.840—0.941);验证阶段SVDR+BFF最差(AUC 0.608—0.772),依次为SVDR+CFF(0.646—0.782)、MVDR+BFF(0.676—0.798)、CART(0.696—0.830),MVDR+CFF仍最优(AUC 0.727—0.883)。因此选定MVDR+CFF为最终建模方案。
3.4. Determination of Monthly Optimal Probability Thresholds——研究人员基于验证集ROC计算Youden's J指数确定MVDR+CFF方案各月最佳概率阈值,结果显示4—7月及9月阈值小于0.5,8月及10—11月阈值大于0.6;训练集AUC均值约0.884(范围0.840—0.941),验证集AUC均值约0.802(范围0.727—0.883),所有ROC曲线均位于随机猜测线之上,模型具有效判别能力。
3.5. Fishing Ground Forecasting Results and Performance Verification in 2024——研究人员用MVDR+CFF模型预报2024年4—11月渔场,预测高概率区与实际作业位置整体空间一致:4月高值区位于149°E、37°N附近对应少量作业;5月EEZ附近(149°E—155°E)概率升高与大量作业吻合;6—8月高概率呈东北—西南波状条带分布与实况高度一致;9月渔场西移聚合,8—9月高概率区位于42°N以北覆盖实际作业区;10—11月作业区收缩沿EEZ呈带状分布,西经160°E以西高概率区对应实际作业、以东无作业。2024年独立测试ROC曲线均高于对角线,月度AUC范围0.657—0.757,平均0.722±0.033;Schoener's D为0.484—0.595(均值约0.529),表明中等程度空间重叠;混淆矩阵得出TP=218、FN=143、TN=6384、FP=1275,灵敏度0.604、特异度0.834、阴性预测值(NPV)0.978,模型对非渔场的识别可靠性显著高于渔场识别。
讨论部分总结:研究人员指出月份变量反映了季节对海洋环境及日本鲭生活史(产卵、索饵洄游)的调控作用,CART能有效捕捉月份与环境因子的交互;SST、CHL、海流、SST梯度、SSHA分别通过影响适温范围、饵料丰度、营养输送、锋区高生产力及中尺度动力过程共同调节日本鲭空间分布,时—环境变量耦合是模型性能的基础。模型高特异度(83.35%)与高NPV(97.81%)意味着可可靠排除低资源密度海域,减少无效出海、提高捕捞经济效益,符合渔业生产需求;灵敏度偏低(60.4%)源于未纳入中尺度涡等瞬态动力变量、环境数据时空分辨率有限及渔场样本在空间上占比较小致使类别不平衡。CART本身预测为阶跃函数、外推能力差,单独应用精度有限;MaxEnt将CART规则转为特征函数并以最大熵平滑输出连续适栖概率,弥补了CART不连续缺陷并提升了可解释性。多变量决策规则(MVDRs)比单变量规则(SVDRs)更契合多因子协同驱动渔场形成的生态实际,连续特征函数(CFF)较二值(BFF)保留了CART输出的概率梯度信息,故MVDR+CFF组合效果最优。当前局限包括Bootstrap产生的多规则组合较复杂影响生态学解读(可通过剪枝限深简化)、未考虑网格数据空间自相关(可用空间分块交叉验证改进)、未引入高分辨率中尺度海洋动力变量(后续拟补充)。最后结论翻译如下:
结论:本研究提出一种CART规则引导的最大熵(MaxEnt)特征函数构建方法,利用Bootstrap增强特征函数的鲁棒性与多样性,实现了CART可解释性与MaxEnt预测精度的优势互补。统计与对比实验证实,多变量复杂规则与连续特征函数在西北太平洋日本鲭渔场预报中具有更高预测精度。该技术路径融合了高精度与强可解释性,是具有理论合理性与实用价值的建模思路。研究客观分析了规则解读在实证中的局限性并提出了规则简化改进方向,未来将通过方法体系迭代与应用场景拓展,为渔场预报领域预测精度与模型可解释性平衡相关研究提供支持,同时拟引入高频数据集与中尺度动力变量以进一步提升模型空间精度与预测性能。