一种用于估计总物种数的累积速率曲线新方法

【字体: 时间:2025年03月06日 来源:Environmental and Ecological Statistics 3

编辑推荐:

  研究人员针对总物种数估计难题,开展基于物种累积曲线(SAC)变化率的研究,结果表明该方法在多数情况下表现出色,对生态研究意义重大。

  在生态研究领域,准确估算总物种数一直是一个极具挑战性的问题。多年来,统计生态学致力于解决这一难题,随着时间的推移,相关估算方法在质量和数量上都有所提升。新的推断方法不断涌现,微生物生态学等领域产生的新数据集也为开发新的估算器提供了动力。然而,基于有限的观测样本去估计未观测到的物种数量,依旧困难重重。现有数据常由随机丰度模型表示,该模型假设每个物种的观测数量是具有一定潜在速率的泊松样本,且零值被截断。在实际情况中,大量潜在速率分布的概率质量集中在零附近,导致数据集中罕见物种占主导,这使得标准统计方法难以应用,需要对极端情况下的分布行为进行建模和研究。
为了解决这些问题,来自牛津大学(University of Oxford)和多伦多大学(University of Toronto)的 Konstantin Shestopaloff 等人开展了深入研究。他们提出了一种基于物种累积曲线(SAC)变化率建模的总物种数估算器 —— 累积速率曲线(ARC)估算器,并将研究成果发表在《Environmental and Ecological Statistics》上。

在研究中,研究人员运用了多种关键技术方法。首先,基于观测数据计算 ARC,并使用参数曲线对其进行拟合,通过积分参数曲线的尾部来估计未检测到的物种数量。其次,开发了加权估计器,结合三种参数曲线的估计结果,使方法更具通用性。同时,利用泊松混合分布来估计观测计数的协方差,并通过参数自助法获得置信区间。此外,还探讨了数据平滑和偏差调整的方法,以提高点估计的准确性。

研究结果如下:

  1. 模拟研究:通过模拟研究评估 ARC 估算器的性能,与多种现有估算器进行比较,使用偏差、均方误差(MSE)和 95% 置信区间(CI)覆盖率等指标进行衡量。结果显示,在大多数泊松 - 伽马场景中,ARC 估算器在相对偏差和 MSE 方面表现出色,尤其擅长模拟稀疏数据。在对数正态场景中,总体表现优于其他比较方法,在更稀疏的场景中性能更好。但在 Zipf 分布场景中表现不佳,这是因为检测速率的衰减与该方法主要假设的对数正态不一致。应用数据平滑和点估计调整技术后,总体 MSE 有所改善,偏差也有所降低125
  2. 应用示例:将 ARC 估算器应用于植物微生物组数据集和 Steam 游戏平台目录大小的估计。在植物微生物组数据集中,ARC 估算器得到的总物种数估计值往往略高于其他方法,且估计范围更具可变性。在 Steam 游戏平台目录大小的估计中,ARC 估算器表现出良好的整体性能,在偏差和 MSE 指标上最为稳健,置信区间覆盖率在多数年份接近预期,但在 2017 年和 2018 年有所下降34

在研究结论与讨论部分,ARC 估算器在多种数据类型和指标上表现良好。它通过 ARC 估计未观测物种的概念在模拟潜在数据结构方面行之有效,能产生准确的估计。该估算器在计算上稳健且数值稳定,权重截断有效地规范了加权估计并减少了偏差。在估计潜在计数协方差方面,该方法相较于其他方法显著提高了 MSE,在置信区间估计上也确保了良好的覆盖概率。不过,ARC 估算器也存在一些局限性。例如,该方法的公式假设对数正态是模拟检测速率的主要曲线,若检测速率与对数正态差异较大,估计会产生偏差。此外,该估算器更适用于稀疏场景,在未观测物种比例较低的场景中,可能不如一些专门针对此类场景的方法。

总体而言,ARC 估算器在一系列数据分布中实现了准确和稳定的性能,尤其在未观测物种比例较高的情况下优势明显。这一研究成果为生态研究中的物种估计提供了新的有力工具,有助于推动相关领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号