《Conservation Biology》:Comparative species distribution model framework for marine conservation and its application to loggerhead turtles in the Mediterranean
编辑推荐:
建模动态远洋环境中的物种分布仍然具有挑战性,特别是对于分布范围广且高度移动的物种,且缺乏关于模型性能的明确指导。这一局限性制约了物种分布模型(Species Distribution Model,SDM)在海洋保护中的有效应用,而稳健且可迁移的预测对于保护规划
建模动态远洋环境中的物种分布仍然具有挑战性,特别是对于分布范围广且高度移动的物种,且缺乏关于模型性能的明确指导。这一局限性制约了物种分布模型(Species Distribution Model,SDM)在海洋保护中的有效应用,而稳健且可迁移的预测对于保护规划至关重要。研究人员以蠵龟(Caretta caretta)为案例,开发了一个基准测试工作流(benchmarking workflow),以比较不同空间分辨率、环境预测变量及算法下的建模策略。研究人员评估了五种常用建模方法——广义线性模型(Generalized Linear Model,GLM)、广义加性模型(Generalized Additive Model,GAM)、随机森林(Random Forest,RF)、提升回归树(Boosted Regression Tree,BRT)和最大熵模型(Maximum Entropy Model,MaxEnt)——并使用地中海全域标准化渡轮航线截线调查积累的15年目视调查数据集,环境预测变量按年份平均以捕捉夏季 recurring条件。模型输出评估了其预测栖息地适宜性及动态远洋环境中空间利用模式的能力,同时使用独立的全盆地航空调查数据集评估了模型的稳健性与空间可迁移性(spatial transferability)。研究结果显示出一致性规律以指导广域远洋物种SDM的选择:在地中海离岸远洋系统中,提高空间分辨率改善了预测栖息地模式的生态可解释性,扩展的动态海洋学预测变量集增强了生境关联特征的描述;独立验证对筛选稳健且可迁移的建模算法至关重要,其中MaxEnt和GAM分别为栖息地适宜性建模和遇见率(Encounter Rate,ER)建模提供了最可靠的表现;结合仅存在点(presence-only)模型与遇见率模型有助于区分栖息地适宜性与观测强度。总体而言,本研究开发了一个经实证检验的工作流,以支持针对离岸数据有限系统中移动海洋物种的稳健、一致且具政策相关性的SDM应用。通过阐明各建模方案间的权衡,该框架增进了SDM在区域及国际保护框架下为空间规划、保护优先级排序、物种分布与生境利用评估提供信息的能力。
论文解读:海洋保护物种分布模型比较框架及其在地中海蠵龟(Caretta caretta)中的应用
本文发表于《Conservation Biology》。物种分布模型(Species Distribution Model,SDM)是研究生物多样性格局和支撑空间保护规划的重要工具,通过将物种出现数据与环境条件关联来预测栖息地适宜性和潜在分布,对鲸类、海龟等高度移动海洋巨动物尤为重要。然而SDM对输入数据类型(如仅存在-伪缺失 vs 密度/计数)、空间分辨率和算法选择高度敏感,这些选择会强烈影响模型输出及其可解释性。传统统计方法(GLM、GAM)长期主导海洋SDM应用,但机器学习方法(MaxEnt、RF、BRT)因能捕捉复杂非线性生态关系而日益受关注。目前一个被忽视的关键问题是使用不同采样设计和平台的独立数据进行外部验证,这对评估模型稳健性和空间可移植性(spatial transferability)至关重要,但在海洋SDM研究中仍较少使用。这些挑战在离岸远洋系统中尤为突出——后勤限制导致数据稀缺,生境利用受高度动态海洋过程塑造,时空变异性强。尽管SDM开发的核心要素(空间分辨率、环境预测变量、建模算法)已较明确,但其在离岸环境下、特别是针对高度移动海洋分类群使用长期标准化数据集进行系统性经验评估仍罕见,各常见建模决策如何影响远洋系统中模型生态可解释性、空间可移植性及保护相关性仍不清楚,限制了一致且可迁移建模方法的发展。为此,研究人员以地中海蠵龟(Caretta caretta,受多项国际协定保护的广域泛化种,其高移动性和灵活行为反映了远洋巨型动物建模的典型挑战)为研究对象,利用15年标准化渡轮截线调查数据和独立航空调查验证数据集,系统比较不同空间分辨率(5 km vs 10 km)、环境预测变量集(基础 vs 扩展)和五种算法(GLM、GAM、RF、BRT、MaxEnt)在仅存在-伪缺失分类模型和遇见率(Encounter Rate,ER)回归模型两类任务中的表现,经内部交叉验证与独立外部验证筛选最优建模策略,明确各建模选择的权衡,为数据有限的远洋系统提供经实证检验的SDM应用框架。研究发现:5 km空间分辨率较10 km提高了生态可解释性但未明显改变判别能力;加入动态海洋学预测变量虽未大幅提升判别指标但使离岸区域生境适宜性空间模式更连续合理;经独立外部验证,MaxEnt对仅存在-伪缺失栖息地适宜性建模具最佳可移植性(独立验证AUCind=0.71),GAM对ER建模具最佳可移植性(AUCind=0.74),而RF和BRT内部表现好但外部验证大幅下降;结合适宜性模型与ER模型可区分生境适宜性与观测强度(利用强度)。该比较框架明确了远洋SDM建模关键决策的经验依据,对指导海洋保护空间规划、优先区划定及物种生境评估具重要方法与政策意义。
主要关键技术方法
研究人员使用2008–2023年地中海西部及亚德里亚海固定渡轮航线(FLT Med Net及LIFE Conceptu Maris项目)标准化夏季(7–9月)蠵龟目视调查出现记录(n=2308条)作为校准数据,以ACCOBAMS Survey Initiative(ASI)2018年全地中海盆地面航空调查海龟科(Cheloniidae,西地中海以Caretta caretta为主)独立遇见记录(n=2673)作外部验证。环境预测变量源自Copernicus海洋再分析产品(2008–2022)动态变量(海表温度SST、盐度SSS、叶绿素a浓度Chl-a、海表面高度SSH、混合层深度MLD、表层海流及热梯度等)和GEBCO及EMODnet静态变量(水深、坡度、距海岸/海山/海底峡谷距离),按月平均得夏季典型条件,重采样至5×5 km和10×10 km欧标网格。设基础预测变量集(10个常用变量)和扩展集(基础+5个中尺度海洋学变量)。采用平衡1:1仅存在-伪缺失设计(伪缺失抽自有调查努力的无目击网格单元;MaxEnt用有调查努力背景点及努力偏倚层),内部75%训练/10折交叉验证+25%预留测试,外部验证用独立ASI数据。分别拟合五类算法GLM、GAM(mgcv包,二项式或Tweedie分布)、RF(randomForest/ranger)、BRT/GBM(gbm/xgboost)及MaxEnt(dismo,Java实现)于仅存在-伪缺失分类任务和ER回归任务(ER=目击数/调查里程,仅保留≥10 km努力网格单元,零膨胀用Tweedie GLM/GAM处理),灵活机器学习模型中排除经测试不影响判别但引空间伪迹的经纬坐标。性能评估指标含训练/测试AUC(Area Under the Receiver Operating Characteristic Curve)、准确率、敏感度、特异度、精确率、F1分数、TSS(True Skill Statistic=TSS=Sensitivity+Specificity?1)、RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、R2,及内外验证差距ΔAUCint=AUCtrain?AUCtest、ΔAUCext=AUCtest?AUCind筛查过拟合,伪缺失抽样做30次重复敏感性分析。所有分析在R v4.2.0中完成。
研究结果
Effects of spatial resolution and predictor variable sets on presence–pseudoabsence GAM performance(空间分辨率及预测变量集对仅存在-伪缺失GAM表现的影响)
研究人员在相同基础变量集下分别以5 km和10 km分辨率拟合GAM,发现5 km分辨率模型训练与测试判别力相当(AUCtrain≈0.77,AUCtest≈0.79,解释偏差deviance explained≈26%),略优于10 km(AUCtest≈0.77,deviance explained≈22%),且5 km能捕获更细的空间结构(沿岸特征和局地热点),预测变量响应区分度更高,故后续采用5 km。在此基础上比较基础与扩展变量集,扩展集使deviance explained从26.1%升至28.1%,AUC近似,但扩展模型在离岸及主要环流带产生更连续合理的适宜性空间格局,基模型较破碎;扩展集中海表面高度、热梯度、混合层属性、表层海流等动态变量贡献显著,盐度和距岸距离始终重要,而水深、距海底峡谷距离及SST无显著独立效应,空间坐标相对贡献下降。响应曲线显示适宜性峰值出现于中等盐度(约37.2–37.8 PSU)、中等生产力与中尺度活动水平(Chl-a≈0.12 mg/m3,SSH≈?0.42~?0.33 m,热梯度≈0.0045°C,海流速度≈0.4–0.6 m/s),SST在扩展模型中无独立效应(edf≈0,p=0.55)。结论:提高空间分辨率改善生态可解释性,扩展动态海洋学预测变量集改善生境关联表征且不引过拟合。
Algorithm performance for presence–pseudoabsence and ER models(仅存在-伪缺失模型与ER模型的算法表现)
研究人员在5 km分辨率及扩展变量集下比较五算法两类任务。内部验证RF、BRT、GAM判别力相近且较高,但外部独立ASI验证时RF和BRT大幅下降(RF AUCind=0.51,BRT AUCind=0.54),GAM中等(AUCind=0.67),MaxEnt外部表现最佳(AUCind=0.71)虽内部略低。ER模型中GAM内外部表现一致(解释达~41%偏差),外部判别最优(AUCind=0.74);RF和BRT训练拟合优度高但独立验证下降;GLM两类任务均偏弱。伪缺失抽样敏感性分析显示内部AUC标准差≈0.025、外部≈0.006–0.012,算法排序稳定。将最终模型投影至全地中海并叠加不确定性,MaxEnt给出夏季栖息地适宜性,GAM给出ER。结论:经独立验证MaxEnt最适合仅存在-伪缺失适宜性建模,GAM最适合ER建模;仅靠内部交叉验证会高估树模型可移植性;结合两模型可区分生境适宜性与空间利用强度。
讨论(总结翻译研究结论部分)
研究结果为空间分辨率、环境预测变量选择及算法选择如何共同塑造离岸远洋系统模型表现提供了实证证据。在地中海离岸远洋系统中,提高空间分辨率即便判别力增益不大也能改善生态可解释性;动态海洋学预测变量对捕捉生境变异性至关重要;独立验证对识别稳健可迁移算法至关重要;结合仅存在模型和ER模型有助于区分一般栖息地适宜性与观测强度从而提供互补利用模式信息。空间分辨率是关键决定因素,5 km网格匹配海洋学中尺度特征原生分辨率并增强环境异质性表征,比10 km更好地保留锋面、涡旋等地形不连续面信息,且更符合海洋保护区等保护措施实施的空间尺度——分辨率差异导致的预测格局变化具保护后果。预测变量选择强烈影响模型可解释性与生态相关性,加入经生态论证的复杂海洋学预测变量(水文结构、生产力、中尺度环流如盐度、Chl-a、SSH、MLD、流强及热梯度)直接表征与觅食和移动相关的瞬态生境特征,使空间坐标解释作用下降,静态特征(距岸、海山、海底峡谷)仍重要反映猎物聚集间接作用。算法选择经独立数据评估成为可移植性的关键:MaxEnt凭借灵活正则化和基于调查努力的背景点偏倚层在仅存在-伪缺失建模中最稳健可移植,适合不均匀采样海域;GAM配惩罚平滑项在ER建模中平衡灵活性与简洁性且不过拟合;树模型(RF、BRT)虽内部高性能但易过拟合空间结构致外部可移植性降低,尤当含经纬坐标时产生空间伪迹(去坐标可改善解释性但不改内部性能);GLM因无法充分表征非线性及尺度依赖生态过程表现较弱。需注意算法表现具情境依赖性,但内外验证差异凸显独立验证评估SDM可移植性之必要(海洋SDM中仍少用)。生态上,模型一致识别出南第勒尼安海、撒丁-西西里海峡、亚德里亚海和阿尔及利亚海盆等离岸高适宜/高频利用区,与先前研究吻合,这些区域具促进猎物聚集与滞留的水文配置(生产力、盐度及中尺度环流特征如SSH异常和中等流强),支持蠵龟夏季功能性重要生境解读;阿尔及利亚海盆虽无直接渡轮调查覆盖但得独立验证支持,提示整合模型预测与独立验证可识别生态重要离岸区。ER模型经标准化固定航线调查减检测偏差,与适宜性模型联读可区分集中利用区与弥散利用区(如利古里亚-普罗旺斯海盆)。综上,离岸生境利用主要受动态海洋学过程而非静态地理特征驱动,中尺度环流特征构造未成熟蠵龟觅食机会和生境选择的作用与卫星追踪证据一致,所识别动态离岸区域可能对其他大型海洋脊椎动物具功能重要性,支持多物种综合保护规划。所建框架可迁移至具可比监测计划的其他广域海洋类群与海域(如基于班轮/货轮定期航线的观测方案),支撑跨区移动海洋物种评估,模型输出可补充完善地中海既有及新兴空间保护与管控倡议(如欧盟生境指令、海洋战略框架指令、UNEP/MAP IMAP)。
DATA AVAILABILITY STATEMENT:数据处理、建模与分析脚本及部分物种数据存档于Zenodo(https://doi.org/10.5281/zenodo.19321489)。