公民科学数据中的物种偏好与清单起始偏差:对鸟类分布模型的影响与缓解策略

【字体: 时间:2025年10月12日 来源:Diversity and Distributions 4.2

编辑推荐:

  本文探讨了公民科学(Citizen Science)数据中观察者物种偏好引发的清单起始偏差(list-initiation bias),通过分析英国eBird和BirdTrack数据集,揭示了稀有物种(rare species)对短期调查的驱动作用。研究采用占用模型(occupancy models)和广义可加模型(GAMLSS)量化偏差,并提出通过剔除短时清单(<10分钟)有效缓解其对物种分布模型(SDMs)的影响,为生态学家和数据协调员提供了实践建议。

  
1 引言
物种观察数据在生物多样性监测中具有重要意义,但公民科学数据存在因观察者行为差异导致的偏差。观察者对特定物种的偏好(如稀有性、新颖性或形态特征)会影响数据收集过程,进而干扰生态推断的准确性。尽管“完整清单”(complete checklist)协议要求记录所有可识别物种以减少分类偏差,但物种偏好仍可能通过触发清单起始过程引入偏差。本研究旨在:(1)从概念上证明观察者偏好如何导致有偏的清单起始;(2)评估英国两个半结构化公民科学数据集中的这种偏差程度;(3)衡量该偏差对占用模型(occupancy models)的影响;(4)提出缓解偏差的建议。
2 材料与方法
2.1 数据集与研究区域
研究使用2021年英国范围内的eBird和BirdTrack数据集。eBird记录清单时长至1分钟精度,但不记录物种录入顺序;BirdTrack记录5分钟间隔的时长,其移动应用版本记录了部分清单的物种录入顺序。过滤后的eBird数据集包含171,474份清单中的3,600,798条观察记录,涉及388种鸟类;BirdTrack数据集包含63,186份清单中的1,316,710条记录,涉及394种鸟类。
2.2 基于eBird的物种稀有性与清单时长建模
为探究物种稀有性与清单时长的关系,定义了“清单稀有性评分”(checklist rarity score),即每份清单中最稀有物种的普遍性(prevalence)经标准化后的值(区间[0,1])。使用基于Beta分布的广义可加模型(GAMLSS)拟合观察数据与置换数据(随机打乱物种观察记录)中稀有性评分与时长的关系,并通过1000次子抽样计算95%置信区间。
2.3 eBird中物种特异性观察者偏好的估计
通过比较观察与置换数据中短时清单(时长小于中位交叉点3.3分钟)的物种出现率,计算“eBird偏好比率”(eBird preference ratio)。该比率表示物种在短时清单中观察到的出现次数与期望出现次数的比值。通过1000次自助法(bootstrap)计算置信区间,并拟合高斯GAM探究偏好比率与报告率(reporting rate)的关系。
2.4 BirdTrack中物种特异性观察者偏好的估计
利用BirdTrack的清单录入顺序数据,计算物种作为清单中首次记录物种的频率,并与期望频率(假设无偏好时,为清单物种数的倒数平均值)比较,得到“BirdTrack偏好比率”。同样通过自助法估计置信区间,并分析其与报告率的关系。
2.5 跨数据集偏好比较
通过相关性分析(Pearson’s r)比较eBird与BirdTrack偏好比率,以验证eBird方法的有效性。分析涵盖所有共有物种(242种)及常见繁殖鸟类(132种)。
2.6 观察者偏好的其他分析
包括探究eBird中不完全清单与完全清单的物种报告比率,以及BirdTrack中“年度首次观察”对偏好的影响。
2.7 观察者偏好对物种分布模型的影响
对132种常见繁殖鸟类,分别使用全数据集、仅短时清单(<10分钟)和仅长时清单(≥10分钟)数据拟合占用模型,比较不同数据集下英国范围内占用概率估计的差异,并分析偏好比率与模型差异的关系。
3 结果
3.1 eBird中物种稀有性与清单时长的建模
短时清单(<5分钟)中报告的物种比置换数据中更稀有(图1)。观察与置换模型的中位交叉时长为3.3分钟(95% CI: 2.2–4.5分钟),表明清单起始偏差主要体现在短时清单中。
3.2 eBird中物种特异性观察者偏好的估计
eBird偏好比率可估计259种物种(图2)。稀有物种(报告率<1%)在短时清单中出现频率显著高于期望,常见物种(报告率>1%)的偏好比率在1:3.7至3.9:1之间(表1)。偏好比率与报告率呈负相关。
3.3 BirdTrack中物种特异性观察者偏好的估计
BirdTrack偏好比率可估计295种物种(图3),常见物种的比率在1:2.8至2.2:1之间(表2)。偏好比率与报告率同样呈负相关。
3.4 跨数据集偏好比较
eBird与BirdTrack偏好比率显著正相关(所有物种r=0.49,常见物种r=0.38;图4),表明两种方法一致揭示了观察者偏好。
3.5 观察者偏好的其他分析
eBird中不完全清单更倾向于报告稀有物种,且不完全:完全清单比率与eBird偏好比率正相关。BirdTrack中年度首次观察的偏好比率更高。
3.6 观察者偏好对物种分布模型的影响
剔除短时清单对大多数物种的占用模型影响有限(图5)。全数据集与长时清单模型的平均绝对差异为0.01(范围0.001–0.032),且偏好比率较高的物种差异稍大。
4 讨论
4.1 清单起始偏差的产生原因
偏差主要由观察者对稀有物种(如红鸢Milvus milvus、游隼Falco peregrinus)和新颖物种(如年度首次观察)的偏好驱动,导致短时清单中这些物种过度报告。物种性状(如体型、颜色)也可能影响偏好,但需进一步研究。
4.2 对物种分布模型的影响
由于短时清单占比小(eBird中<10%),剔除后对占用模型影响微弱,但偏好比率高的物种差异稍大。在数据量减少显著的情况下,偏差影响可能更突出。
4.3 局限性与未来研究
研究限于英国2021年数据,且BirdTrack仅使用移动应用数据。未来需拓展时空范围,探究物种性状与偏好的关系,并开发更普适的偏差缓解方法。
4.4 建议
分析师可剔除短时清单(或使用时长作为协变量),建议临界时长为10分钟。项目协调员应收集清单录入顺序或首次观察物种信息,引导用户标注不完全清单。
5 结论
公民科学数据虽有偏差风险,但通过适当处理可支持生物多样性监测。本研究揭示了清单起始偏差的存在,并提供了量化与缓解方法,为未来研究奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号