物种观察者数据与背景点核密度估计相结合的方法,能够修正鸟类物种分布模型中的抽样偏差

《Ecography》:Species-observer link and kernel density estimation of background points allow for sampling bias correction in bird species distribution models

【字体: 时间:2025年11月13日 来源:Ecography 4.7

编辑推荐:

  物种分布模型(SDM)的采样偏差校正方法研究。提出 Presence-Weighted Observer-Oriented Approach(PW-OOA),通过估计个体观察者的核密度分布并加权整合,优化背景模拟。基于捷克共和国109种鸟类数据,比较随机背景、空间薄ning、目标群背景(TGOB)及TGOB+等4种方法,发现PW-OOA在AUC等指标上提升最显著(平均+6%,最高+29%),尤其适用于高丰度物种。建议无独立验证数据时采用TGOB+,有数据时推荐PW-OOA。

  本研究探讨了在物种分布模型(Species Distribution Models, SDMs)中,如何有效纠正由于观察者采样偏差而导致的模型预测偏差问题。SDMs作为一种广泛使用的生态建模工具,通常依赖于物种的出现记录来推断其生态位和栖息地偏好。然而,这些出现数据往往存在明显的空间、环境和时间上的偏差,尤其是在使用非结构化、机会性数据(如公民科学平台收集的数据)时。因此,如何准确识别并校正这些偏差,成为提升SDMs预测性能的关键。

在本研究中,作者提出了一种新的方法——“存在加权观察者导向方法”(Presence-Weighted Observer-Oriented Approach, PW-OOA),旨在更准确地估计观察者的采样强度,并据此调整模型的背景点模拟。PW-OOA的核心思想是,通过计算每个观察者记录的物种出现点的核密度(Kernel Density, KD),然后根据这些观察者对目标物种出现记录的相对贡献,对这些核密度进行加权。这样可以更精确地反映观察者在不同区域的采样努力程度,从而在生成背景点时减少因采样偏差造成的干扰。

为了验证这一方法的有效性,研究团队使用了捷克共和国的鸟类出现数据,并对109个物种进行了建模。他们比较了四种不同的偏差校正方法:空间稀疏化(Spatial Thinning of Species Presences, STSP)、目标群体出现背景(Target Group Occurrences Background, TGOB)、TGOB+(通过调整核密度平滑带宽进行优化的TGOB)以及PW-OOA。此外,他们还与简单的随机背景采样进行了对比。研究结果显示,PW-OOA在大多数情况下都表现优于其他方法,尤其是在物种出现频率较高的情况下,其提升效果尤为显著。

在方法学方面,研究团队采用了多种数据处理和建模策略。首先,他们明确了研究区域为捷克共和国,这是一个具有多样生态环境的地区,涵盖了从高山森林到低地农业景观,以及城市和自然保护区等多种生境类型。这种多样性为研究采样偏差提供了理想条件,因为不同区域的采样强度和观察者行为可能各不相同。其次,他们使用了两个独立的数据集:一个是基于系统调查的鸟类存在-缺失数据库(Presence-Absence Database, PAD),另一个是基于机会性记录的鸟类存在数据库(Presence-Only Database, POD)。PAD数据作为模型验证的参考,而POD数据则用于训练模型。这种设计确保了模型的预测结果能够与真实数据进行比较,从而评估偏差校正的效果。

在构建模型时,研究团队选择了三种常用的建模方法:随机森林(Random Forest, RF)、广义线性模型(Generalized Linear Models, GLM)和Maxent。Maxent算法在本研究中表现最为突出,其预测性能在所有评估指标中均优于其他两种方法。因此,研究团队主要以Maxent作为评估工具,分析了不同偏差校正方法对模型性能的影响。他们发现,当没有独立验证数据时,TGOB+方法在内部验证中表现较为稳健,而当有独立数据可用时,PW-OOA方法则具有更高的预测准确性。

此外,研究还探讨了不同参数设置对模型性能的影响。例如,核密度带宽(Kernel Density Bandwidth, KDB)是影响背景点模拟的重要参数之一。KDB的选择不仅涉及技术层面的考量,还可能具有生物学意义,例如它可能反映物种的扩散范围或观察者的采样范围。然而,由于不同物种的生态特征和观察者行为差异较大,很难找到一个适用于所有情况的统一KDB值。因此,研究团队在不同物种上尝试了多种KDB值,并结合不同的观察者权重(Observer Weight, OW)进行了综合分析。结果显示,PW-OOA方法在不同的KDB和OW组合下均表现出良好的适应性,能够在多种情况下提供相对准确的模型预测。

在结果部分,研究团队展示了PW-OOA与其他方法在多个评估指标上的对比。例如,AUC(Area Under the Curve)是衡量模型预测能力的常用指标,它表示模型区分物种出现和缺失的能力。研究发现,PW-OOA方法在大多数物种上显著提高了AUC值,平均提高了6个百分点,而TGOB+方法则平均提高了约5个百分点。相比之下,STSP和TGOB方法的提升幅度较小。此外,研究还发现,某些物种在使用PW-OOA后,其AUC值提高了超过20个百分点,表明该方法在特定情况下具有显著优势。

值得注意的是,研究团队在内部验证和外部验证之间发现了明显的差异。内部验证通常基于训练数据,因此可能会高估模型的预测能力。而外部验证(即使用独立的PAD数据)则能更真实地反映模型在实际应用中的表现。研究发现,某些在内部验证中表现优异的模型,在外部验证中反而出现了性能下降的情况。这表明,仅依赖内部验证数据可能无法准确评估偏差校正的效果,尤其是在数据存在偏差的情况下。因此,作者建议在可能的情况下使用独立的、非偏差的数据集进行模型验证,以确保结果的可靠性。

研究还指出,不同物种对偏差校正方法的响应存在差异。某些物种可能对TGOB或TGOB+方法更为敏感,而另一些物种则可能更适合PW-OOA方法。这种差异可能是由于不同物种的生态特征、观察者行为以及数据结构的不同所导致。例如,某些物种的出现记录可能集中在特定的区域或特定的观察者手中,而其他物种的分布可能更为均匀,因此对偏差校正的依赖程度也有所不同。因此,在实际应用中,选择合适的偏差校正方法需要考虑物种的具体情况,而非一概而论。

在讨论部分,作者强调了PW-OOA方法的优势。首先,该方法不需要引入额外的偏倚相关变量(如人口密度、道路网络等),因此具有更高的灵活性和适用性。其次,该方法能够有效利用观察者报告的出现记录,从而更准确地反映采样强度的分布。这种基于观察者贡献的加权方法,能够在不依赖复杂生态特征的情况下,对不同物种的采样偏差进行有效校正。此外,PW-OOA方法还具有较强的可扩展性,可以应用于其他生物类群,如植物或昆虫,这些类群同样受到观察者采样偏差的影响。

然而,研究也指出了一些局限性。例如,研究区域的范围较小,可能会影响模型的泛化能力。此外,数据的分辨率(如PAD数据为3公里)可能限制了模型的预测精度,尤其是在分析高分辨率的环境变量时。尽管如此,作者认为,使用独立数据集进行模型验证仍然是提升模型性能的关键步骤。此外,他们还建议未来的研究可以进一步优化核密度参数,结合生物学知识和数据驱动的方法,以提高偏差校正的精度和适用性。

总体而言,本研究为如何在SDMs中有效纠正观察者采样偏差提供了新的思路和方法。PW-OOA方法在多个方面表现出色,尤其是在处理高出现频率的物种时。然而,其性能仍受到数据结构、观察者行为和模型参数设置的影响。因此,未来的研究应更加注重方法的灵活性和可扩展性,同时探索如何在不同生态系统和数据来源下应用这些偏差校正技术。此外,随着公民科学项目的快速发展,越来越多的非结构化数据被用于生态建模,这使得偏差校正方法的创新和优化显得尤为重要。通过不断改进这些方法,可以更准确地预测物种的分布模式,从而为生态保护和生物多样性研究提供更为可靠的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号