《Ecology and Evolution》:Generalized Additive Modeling of Ecological Data With mgcv: New Adequacy Assessment Tools
编辑推荐:
本文系统介绍了使用R语言mgcv包拟合广义可加模型(GAM)的新型充分性评估方法。作者通过三个渔业生态学案例(连续数据、计数数据和离散比例数据),详细展示了如何利用hnp包的半正态图和mgcViz包的新指标,从实现覆盖率角度有效检测模型的欠拟合和过拟合问题。这些工具为生态学研究中非线性关系的统计描述提供了更严谨的验证框架,特别适用于具有复杂曲线关系的生态数据分析。
广义可加模型在生态数据分析中的新型充分性评估方法
摘要
广义可加模型(GAM)作为广义线性模型(GLM)的半参数扩展,能够更好地描述生态学中常见的非线性关系。然而,由于平滑函数的使用,GAM的充分性评估比GLM更为复杂。本研究重点介绍了两种基于R语言mgcv包的新评估方法:利用hnp包的半正态图与模拟包络线,以及基于mgcViz包的实现覆盖率指标。通过三个渔业相关案例研究,展示了这些方法在生态学非线性关系解释中的实用价值。
模型充分性评估的重要性
生态数据分析中,无论是GLM还是GAM,都需要满足基本的分布假设才能保证统计推断的可靠性。传统的残差诊断图(如QQ图)虽然可用于GAM评估,但存在主观性强的缺点。因此,需要更客观的补充评估方法。
hnp包:基于经验模拟的充分性评估
半正态图与模拟包络线方法通过从拟合模型进行大量模拟,建立包络线界限。如果模型充分,应有约95%的残差落在包络线内。hnp包计算落在包络线外的残差百分比,通常建议进行10次以上诊断取平均值。小于5%表明模型充分,5%-10%为可接受。对于小样本量(n < 30)情况,建议同时进行可视化检查。
mgcViz评分:欠拟合与过拟合检测
基于mgcViz包的诊断图可以评估分箱残差均值相对于模拟80%置信区间的分布情况。新提出的mgcViz评分通过100次诊断迭代(每次基于100次模型模拟)来量化模型的实现覆盖率均值。评分大于80%提示过拟合,小于80%提示欠拟合,理想情况下应包含目标值80%。
生态数据应用案例研究
一般建模方法
所有分析均使用mgcv包的默认设置,平滑项采用薄板回归样条(k = 10)。考虑到数据来自不同采样点,所有模型都包含随机效应以处理数据结构依赖性。模型比较采用似然比检验和信息论方法(BICc),最终模型使用限制性最大似然(REML)估计进行预测。
雌性湖红点鲑体长-年龄关系
第一个案例研究连续型数据,分析了153尾来自三个不同湖泊的雌性湖红点鲑的体长-年龄关系。使用高斯分布和伽马分布分别拟合GAMM,发现虽然两种模型都显示出良好的拟合优度(调整后R2adj分别为91.2%和94.0%),但hnp评估表明两者均不充分(残差超出包络线的模百分比分别为34.2%和26.9%)。这可能与5-15年龄组观察体长的额外变异有关。mgcViz评分显示伽马分布模型(81.7%)比高斯分布模型(83.6%)更接近理想的80%覆盖率。
圣劳伦斯河小尺寸大眼鲈鱼CPUE时间趋势
第二个案例研究计数数据,分析了1744个年度站点中小尺寸大眼鲈鱼(体长<381mm)的单位努力渔获量(CPUE)在21年间的变化趋势。初步的泊松GAMM因过度离散(离散参数=3.56)和零膨胀而被判定不充分。改用NB2分布后,模型充分性显著改善(hnp模百分比降至0.71%),mgcViz评分为80.8%,接近理想值。通过"双重惩罚"方法,模型参数减少了50%,但仍保持相似的拟合优度。
雌性北极红点鲑产卵概率
第三个案例研究离散比例数据,分析了117尾来自三条河流的雌性北极红点鲑的产卵概率与体长关系。由于二项数据稀少,将体长按50mm分组后分析。最终的二项GAMM显示充分(hnp模百分比为0.17%),但mgcViz评分92.6%表明存在过拟合,可能与分组后样本量减少(n=26)导致的预测不确定性增大有关。模型估计的全球L50(50%成熟体长)为569mm(频率学方法)或575mm(贝叶斯方法)。
讨论与展望
本研究展示的评估工具与DHARMa等现有诊断包结合使用,可为GAM提供更全面的充分性评估。值得注意的是,mgcv包也可用于拟合GLM,使得GLM和GAM可以在同一框架下比较。报告调整后R2adj(高斯模型)或调整后偏差解释率D2adj(非高斯模型)有助于全面评估模型实用性。
三个案例研究展示了GAM在生态学中的应用多样性:前两个案例支持在模型中加入非线性关系,而最后一个案例表明mgcv也可以拟合传统的GLM样模型。这些工具共同为生态学非线性关系的统计描述提供了更严谨的验证框架。
作者贡献与致谢
Julien Mainguy负责研究构思、数据整理、分析和论文撰写;Rachel Mcinerney参与形式分析和验证;Russell B. Millar参与概念化和方法学;Eliane Valiquette和Martin Bélanger参与论文评审;Rafael de Andrade Moral负责软件开发和概念化。研究数据由魁北克省环境、气候变化、野生动物和公园部资助和监测,相关数据和R代码已在GitHub公开。