将深度学习与空间统计学结合用于海洋生态系统监测

《Environmental and Ecological Statistics》：Integrating deep learning and spatial statistics in marine ecosystem monitoring

【字体：大中小】 时间：2026年05月17日 来源：Environmental and Ecological Statistics 1.8

编辑推荐：

　　摘要在生态学中，摄影测量是一种高效收集自然环境非破坏性样本的关键方法。在估计动物的空间分布时，检测大规模图像中的物体变得至关重要。基于深度学习的物体检测技术能够实现大规模分析，但由于检测概率受环境和观测因素的影响，因此会引入不确定性。为了解决检测偏差问题，我们使用稀疏对数高

　　摘要
在生态学中，摄影测量是一种高效收集自然环境非破坏性样本的关键方法。在估计动物的空间分布时，检测大规模图像中的物体变得至关重要。基于深度学习的物体检测技术能够实现大规模分析，但由于检测概率受环境和观测因素的影响，因此会引入不确定性。为了解决检测偏差问题，我们使用稀疏对数高斯Cox过程（Thinned Log-Gaussian Cox Process，LGCP）对意大利第勒尼安海岸吉廖岛附近海域的底栖海参分布进行了建模。本研究的主要目标是开发一个模块化框架，该框架将基于深度学习的物体检测器与空间点过程相结合，以纠正海洋调查中的系统性低估现象。我们采用YOLOv11架构来自动化个体识别。我们假设真实的底层强度描述了实际种群数量，而观测到的检测结果只代表了一部分未被检测到的个体，从而导致强度数据被低估。检测过程通过一个概率函数进行建模，该函数取决于环境因素和观测因素，包括局部密度、网络置信度和物体大小。手动注释被用作基准，我们将稀疏LGCP模型与基于深度学习物体检测结果拟合的未稀疏模型进行了比较。所提出的方法减少了空间强度估计的偏差，并提高了与手动调查结果的一致性（平均皮尔逊残差从6.694降至6.150，平均原始残差从2.092降至1.979）。通过明确考虑检测不确定性，该框架提高了大规模底栖监测的可靠性，支持栖息地评估和基于证据的海洋保护工作。

1 引言
现代水下成像技术为海洋生态学带来了机遇和挑战。结构从运动（Structure from Motion，SfM）摄影测量的进步，结合潜水推进器（Diver Propulsion Vehicles，DPVs）的使用，使研究人员能够在单次调查中捕捉到数百平方米海底的高分辨率图像（Ventura等人，2025年）。典型的大规模底栖调查可以生成数千张图像（在适当格式下拼接后），每张图像都包含单个生物体。这为研究传统调查方法无法达到的空间尺度的海洋种群提供了前所未有的机会。然而，这种技术能力的发展并没有跟上数据收集能力的步伐。分析水下图像的标准方法仍然是由受过训练的生物学家进行手动注释，他们通过视觉检查每张图像并标记目标生物的位置和身份。虽然这种方法提供了可靠的高质量数据，但其劳动密集型特性从根本上限制了其效率（Beijbom等人，2012年；Mahmood等人，2016年）。瓶颈已经从数据收集转移到数据分析上，实际上阻碍了我们以理解生态动态和支持保护规划所需的空间和时间尺度来监测底栖生态系统。

深度学习似乎提供了一个解决方案。卷积神经网络（Convolutional Neural Networks，CNNs）在生态图像中的自动物种检测和计数方面展现了令人印象深刻的能力（Weinstein，2018年；De Iaco等人，2022年）。这些方法可以在几分钟内处理数千张图像，并且通常在基准数据集上的检测准确性与人类注释者相当。实际上，检测器通常是在手动注释的图像上训练的，然后应用于整个调查以产生大规模计数。然而，大多数在生态学中应用深度学习的方法将检测视为最终产品，而不是生态推断的起点（Goodwin等人，2022年）。研究人员主要关注提高检测准确性（或相关指标），而两个根本性问题仍未得到充分解决。首先，所有基于深度学习的检测系统都对生态现实进行了不完美的观察。即使是最复杂的检测器也会犯系统性的错误：它们会错过隐蔽或部分被遮挡的个体，在光照条件恶劣或水质浑浊的情况下表现不佳，将目标物种与形态相似的生物或背景结构混淆，并且在不同栖息地或图像质量下的检测性能不稳定（Zhai等人，2022年）。这些错误不是在大样本中可以相互抵消的随机噪声，而是系统性的观察偏差（Guttorp等人，2026年）。其次，除了检测准确性问题之外，还有一个更深层次的概念性问题，即我们实际上想从图像数据中学习什么。生物体的空间分布反映了潜在的生态过程。底栖物种根据深度、坡度和基质类型等环境梯度在海底环境中分布，响应栖息地异质性，与其他物种相互作用，并反映历史上的殖民动态。这些空间模式是大多数生态研究的主要科学兴趣点。它们揭示了物种偏好的栖息地，确定了影响种群数量的环境因素，并使我们能够预测分布如何随着环境变化而变化。大多数以检测为中心的方法将这些丰富的空间信息简化为简单的汇总计数。

基于这些原因，我们需要一种不同的方法，将基于深度学习的物体检测视为必须在更大推断框架内明确建模的观察过程，而不是作为绝对真实值。这种观点长期以来一直是生态统计学的核心。实际生态状态与观测数据之间的区别构成了物种分布模型、捕获-重捕分析和占用模型（Capture-Recapture Analyses，MacKenzie等人，2002年；Warton等人，2013年）的概念基础。同样的逻辑也应应用于此领域。本研究与其他现有的生态学深度学习应用的不同之处在于如何在推断框架内处理基于深度学习的物体检测。我们不是将检测器输出直接作为真实丰度的代理，而是将其明确建模为对潜在生态过程的稀疏观察。检测概率不是假设已知的，也不是通过重复调查或标记缺失来估计的，而是通过与空间强度一起通过稀疏对数高斯Cox过程（LGCP）来推断的（M?ller等人，1998年；Chakraborty等人，2011年；Warton和Shepherd，2010年；Panunzi等人，2025年；Lewy和Kristensen，2009年）。这使我们能够直接从仅有的存在检测数据中进行生态推断，同时考虑系统性的观察偏差。

我们在这里开发了这种方法，用于通过大规模水下摄影调查评估海参种群。海参（Holothuroidea）作为模型系统具有多个优点。从生态学角度来看，它们在碎屑食物网中处理有机物（Ciriminna等人，2024年），处理大量沉积物，并对从浅海草床到深海环境的底栖群落的营养循环和生物扰动做出重大贡献（Purcell等人，2016年；Schneider等人，2013年；Lopez和Levinton，1987年）。由于商业市场的强烈捕捞压力（主要是亚洲市场），许多海参种群面临保护问题。提高这些物种的空间分布估计准确性对种群评估、栖息地适宜性制图、海洋保护区设计和长期监测计划具有直接影响。更可靠的空间信息使管理者能够识别优先保护区域，早期发现种群下降，评估保护措施的有效性，并预测环境变化下的分布变化。从方法论的角度来看，海参在物体检测方面带来了典型的挑战：它们外观多变，具有隐蔽的体色，与背景基质相似，并出现在视觉复杂的栖息地中。适用于海参的方法应该也能合理地推广到其他面临类似检测挑战的底栖物种。

我们的方法将问题分为两个阶段。首先，使用手动注释的图像训练的深度学习检测器（YOLOv11（Khanam和Hussain，2024年）识别候选生物体，并使用质心将边界框转换为空间点位置。我们不将这些检测视为无误差的观察结果。第二阶段使用稀疏LGCP对检测到的生物体的空间分布进行建模。这种表述自然地捕捉了复杂的空间模式及其与环境协变量的关系。我们的关键创新在于明确纳入了稀疏机制。我们将检测结果建模为来自潜在真实点模式（实际海参位置）的随机稀疏结果。稀疏概率反映了检测的可靠性，并且可以根据图像质量、栖息地复杂性等因素在空间上变化。这种稀疏框架为我们的两个阶段提供了自然的联系。检测器提供了仅有的存在数据，而不指示检测概率。空间模型估计了这种检测概率，同时恢复了实际的空间强度并量化了其与环境协变量的关系。因此，我们可以纠正检测不足的问题，并获得无偏的总丰度和空间分布模式估计。该框架还提供了适当的不确定性量化。

我们的方法与最近将空间点过程模型直接嵌入检测网络中的计算机视觉研究不同（Pham等人，2016年；Mabon等人，2022年、2023年、2024年；Descombes和Zerubia，2002年）。由于神经网络和空间点过程模型的灵活性和可扩展性，它们越来越被认为是多变量点模式统计分析的便捷组合（Mateu和Jalilian，2022年）。在这些设置中，空间统计主要用作提高检测准确性的正则化工具。在这里，整合的方向是相反的：检测服务于生态推断，而不是相反。通过分离检测和推断，该框架可以扩展到大的空间领域，便于整合环境协变量，并实现跨建模阶段的稳健不确定性传播。

本研究的目的是开发并评估一个统一的框架，将基于深度学习的物体检测与稀疏空间点过程相结合，以从仅有的存在数据中获得无偏的空间分布估计。本文的其余部分如下进行：第2节描述了研究区域，并详细介绍了我们框架的两个阶段：物体检测阶段和稀疏LGCP模型，包括环境协变量预处理和模型选择程序。第3节展示了比较不同模型规格的结果，并展示了我们的方法如何从检测器输出中恢复空间模式和丰度估计。第4节讨论了这一框架的生态学意义、方法论限制以及将其扩展到其他底栖监测应用的潜力。

2 材料与方法
2.1 研究区域
研究在意大利第勒尼安海吉廖岛东北海岸的Punta Gabbianara（北纬42.364867°；东经10.920210°）进行（图1）。研究区域包括大约5.500平方米的亚潮间带海底，深度从8米延伸到27米，其特征是经历了显著人为影响的异质底栖栖息地。该地点在2012年Costa Concordia号邮轮失事后经历了生态干扰和随后的恢复（Casoli等人，2017年），并在2019年开始大规模移植Posidonia oceanica（L. Delille，P. Oceanica）（Mancini等人，2022年）。当前的底栖景观代表了地中海亚潮间带社区的复杂马赛克，由沙质沉积区与花岗岩地质构造交错组成，包括被喜光大型藻类群落占据的巨石和卵石。该地点既有残留的自然P. Oceanica斑块，也有新建立的移植草甸，这些草甸逐渐在死亡根茎基质（当地称为“matte”）和相邻的沙质基底上殖民。这种异质性的栖息地配置为研究不同底质类型和恢复阶段下的底栖无脊椎动物分布提供了理想的环境，特别适合采用自动化检测和空间建模方法。图1：该图像的替代文本可能是使用AI生成的。全尺寸图像：Punta Gabbianara研究站点。

2.2 数据收集
图2：该图像的替代文本可能是使用AI生成的。全尺寸图像：研究区域内坡度、b深度和c栖息地类型的空间分布。图d显示了环境协变量之间的相关矩阵。

2022年，我们进行了五次摄影测量测绘任务，时间跨度从1月到11月，应用了之前验证过的用于追踪海草移植分布（Ventura等人，2022年）和表征海参微生境选择（Ventura等人，2025年）的方法。水下图像采集使用了GoPro Hero 10动作相机（23 MP，$5568 \times 4176$像素分辨率），该相机安装在DPV上，能够在限制潜水时间的同时实现广泛的空间覆盖。相机位于海床上方约5米处，保持连续帧之间的$75\%$图像重叠，从而获得3毫米的像素地面采样距离，这足以可靠地检测生物和表征底质。

我们采用了与之前分析中相同的空间变量集（Mastrantonio等人，2024年；Ventura等人，2025年），保持$0.21 \times 0.24 \ m$的分辨率。连续的环境变量包括海底深度、坡度角和地形粗糙度，这些都来源于高分辨率的数字表面模型。环境预测因子的选择基于对海参栖息地使用的生态学知识，这些因素主要受底质类型、结构复杂性和有机物可用性的影响。通过成对皮尔逊相关性评估了共线性，由于地形粗糙度与坡度之间存在强相关性（$\rho \approx 0.7$），因此没有将其包括在内（见图2）。除了地形预测因子外，我们还加入了从正射影像图中提取的纹理指标，以捕捉仅凭高程变量无法表示的栖息地异质性。具体来说，我们应用了拉普拉斯算子和索贝尔算子（Robinson 1977年）来捕捉海底纹理的互补特征。拉普拉斯算子（二阶导数滤波器）突出显示了细尺度的纹理不连续性和斑点状特征，而索贝尔算子（一阶导数滤波器）则强调方向边缘和线性边界。对于索贝尔滤波器，我们分别计算了水平和垂直梯度，然后通过欧几里得范数计算了边缘强度。拉普拉斯和索贝尔强度值在红-绿-蓝通道上进行了平均，以生成单波段纹理指标。这些纹理变量可能捕捉到仅靠地形指标无法充分表示的生态相关栖息地特征，如碎石-沙子界面或藻类冠层边界。

为了从异常详细的正射影像图中分类底质类型，我们应用了基于对象的图像分析框架（Ventura等人，2025年；Fallati等人，2024年）。该方法首先将图像分割成具有相似光谱特征和空间特性的离散单元，然后应用监督机器学习将每个单元分配到相应的栖息地类别。识别出了五种底栖类别：沙质底部、带有喜光藻类的硬质底部、混合了沙子的死亡马赛藻、自然生长的P. oceanica草地以及移植的P. oceanica。所有环境变量都使用区域平均法聚合到一个规则的$1 \times 1$米网格上。对于每个网格单元，我们得出了两种栖息地信息表示：每种栖息地类型的覆盖率以及主导的栖息地类别。这种双重表示使得后续模型能够同时捕捉到细尺度的栖息地异质性和分析分辨率下的主要底质组成。

2.3 检测任务
为了自动化识别正射影像图中的海参，我们开发了一个基于You Only Look Once版本11（YOLOv11）架构（Khanam和Hussain 2024年）的对象检测工作流程。虽然原始的YOLO框架为实时检测奠定了基础（Redmon等人，2016年），但本研究使用了Ultralytics仓库实现的更先进的YOLOv11。与早期YOLO版本相比，YOLOv11包含了更新的主干网络和特征聚合模块、无锚点检测策略以及改进的训练程序，从而提高了对小物体和视觉复杂场景（如水下栖息地）的检测性能（ünel等人，2019年）。

训练数据集来源于2021年在主要研究区域外的生态相似地点获取的十二个高分辨率正射影像图，包括移植地点和自然栖息地，如岛屿东北海岸的Cala Cupa和Cala di Mezzo。通过在空间独立的地点进行训练，我们确保模型学习了海参的通用形态特征，而不是特定地点的背景相关性，从而增强了其泛化到Punta Gabbianara研究区域的能力。为了匹配目标生物的规模，每个影像图被分割成$640 \times 640$像素的块，空间分辨率为0.5厘米/像素，使用QGIS插件Deepness（Aszkowski等人，2023年）。从最初的3609个块中，我们筛选出了2492张手动标注的图像，包括2292张正样本和200张仅显示海床的负样本。包含这些涵盖多种栖息地的负样本是一个策略性选择，旨在提高模型的泛化能力并减少误报。在Roboflow平台上进行了严格的双评审员标注过程（Alexandrova等人，2015年），以确保标签的高质量。数据集被划分为训练集（\(70\%\）、验证集（\(20\%\）和测试集（\(10\%\）。

图3：该图像的替代文本可能是使用AI生成的。全尺寸图像：研究区域内手动标注点和对象检测器检测到的点在五个不同活动中的分布。

为了进一步提高鲁棒性和泛化能力，应用了一套全面的数据增强技术。这些技术包括几何变换（例如旋转、翻转、缩放和裁剪）和光度调整（例如亮度、对比度、色调和饱和度的变化），旨在模拟水下成像条件的真实变化。还加入了模糊和噪声等效果，以再现水浑浊度和相机运动的影响。这种变换组合旨在提高模型对海底纹理、光照条件和生物方向变化的适应性（Zoph等人，2020年）。对于检测任务，我们使用了中等大小的YOLOv11模型（YOLOv11m），它在检测性能和速度之间提供了良好的平衡。该模型通过迁移学习进行初始化，使用了在Common Objects in Context（COCO）数据集（Lin等人，2014年）上预训练的权重，这是一个包含80个物体类别的自然图像的大规模基准，有助于跨视觉领域的特征泛化。预测的置信阈值是通过在验证集上最大化$F_{1}$分数来选择的。在2021年用于测试的数据子集上的初步评估显示了模型的高敏感性，召回率为$92\%$，精确率为$75\%$，平衡的$F_{1}$分数为$82\%\）。更多方法细节，包括训练程序和超参数优化，在Sangiovanni等人（2025年）的文章中有报告。

训练好的模型被应用于主要研究区域的五个正射影像图活动。通过将预测个体与手动标注进行比较，使用精确度、召回率和F\(_1$分数来评估检测性能。结果总结在表1中，而图3展示了手动标注和检测到的个体的空间分布。总体精确度保持一致较高（$0.83-0.92$），表明在不同活动中的误报率较低。召回率显示出较大的变化，从春季调查的0.70到晚秋活动的0.39不等，导致F$_1$分数在0.80到0.54之间。这种模式表明，当目标个体存在时，检测器能够可靠地识别它们，但在更具挑战性的视觉条件下可能会遗漏一部分生物。检测性能在四月最强（F$_1 \approx 0.80$），此时水清澈度和海底可见度最佳，并且随着秋季的到来逐渐下降。十月观察到的召回率显著降低，这可能与碎屑物质的积累有关，特别是夏末风暴后沉积的死亡Posidonia叶子，这些叶子降低了生物与周围底质之间的对比度，使得视觉识别更加困难。表1：五个监测活动中的检测性能。

2.4 数据建模
为了将基于深度学习的对象检测与统计程序联系起来，我们将YOLOv11m产生的检测结果视为真实海参分布的空间偏样本。尽管当个体清晰可见时，检测器的表现良好，但有些生物会被系统性地遗漏，而有些则可能被错误地检测到。在点过程文献中，这通常被称为点污染，后者被称为幽灵点（Guttorp等人，2026年）。因此，统计模型估计了海参的潜在生态强度，纠正了由环境协变量驱动的检测偏差，而这些协变量仅部分被自动化检测器捕获。

定义$\mathcal {D} \subset \mathbb {R}^2$为包含所有采样栖息地的研究区域。对于每个监测活动（$t = 1, \ldots , 5$），检测器产生了$\textbf{U}^*_t = \{\textbf{u}^*_{1t}, \ldots , \textbf{u}^*_{n_{t}t}\} \subset \mathcal {D}$，对应于预测边界框的质心，其中$n_{t}$是检测到的个体数量。同时，也有手动标注的位置$\textbf{U}_t = \{\textbf{u}_{1t}, \ldots , \textbf{u}_{m_{t}t}\} \subset \mathcal {D}$，$m_{t}$表示验证过的个体数量。如表1所示，自动化系统表现出高精确度但中等召回率（$n_{t} < m_{t}\），反映了系统的低估现象。这种保守的检测策略防止了幽灵点引入虚假的空间模式，这些模式无法与生态信号轻易区分。

为了纠正这种偏差并恢复海参的潜在空间分布，我们将检测到的模式\(\textbf{U}^*_t$概念化为每个活动t的潜在生态过程的稀疏实现。具体来说，每个位于$\textbf{s} \in \mathcal {D}$的真实个体都以空间变化的检测概率$p_t(\textbf{s}) \in [0,1]$被独立检测到，从而产生了一个观察到的稀疏过程（Dorazio 2014）。在这个框架下，$\textbf{U}^*_t$被建模为一个稀疏的LGCP（M?ller等人，1998年）的实现：$$\begin{aligned} \begin{aligned} \textbf{U}^*_t&\mid \lambda ^*_t(\textbf{s}) \sim \textrm{PP}(\lambda _t^*(\textbf{s})) \\ \lambda _{t}^*(\textbf{s})&= \lambda _{t}^{\text {pot}}(\textbf{s}) \, p_{t}(\textbf{s}) \\ \log (\lambda _{t}^{\text {pot}}(\textbf{s}))&= \mu _{t} + \textbf{x}(\textbf{s})^\top \varvec{\beta } + w_{l}(\textbf{s}) \\ w_{l}(\textbf{s})&\sim \textrm{GP}\!\left( 0, C(\cdot ; \sigma ^2_{l}, \rho _{l})\right) , \quad l = 1, 2. \end{aligned} \end{aligned}$$ （1）这里，$\lambda _t^{\text {pot}}(\textbf{s})$表示在没有检测偏差的情况下海参的潜在生态分布（Chakraborty等人，2011年；Warton和Shepherd 2010年）。参数$\mu _{t}$表示特定活动的截距，$\textbf{x}(\textbf{s})$是空间协变量向量，$w_{l}(\textbf{s})$是高斯过程。索引l对于前三次活动为1，对于其余活动为2。这种规定反映了在相似调查条件下进行的活动具有相似的残差空间依赖结构。特别是，最后两次活动在更相似的环境和操作条件下进行，而早期的活动则在不同的条件下进行。活动之间的总体丰度差异则通过特定活动的截距$\mu _t$来捕捉。因此，观察到的强度$\lambda _t^*(\textbf{s})$代表了这种潜在强度的过滤版本，受到空间变化的检测概率$p_t(\textbf{s})$的调节。$p_t(\textbf{s})$有几种可能的表述方式，包括受距离采样理论启发的检测函数（Martino等人，2021年；Yuan等人，2017年）。在本研究中，我们采用了半正态检测函数：$$\begin{aligned} p_{t}(\textbf{s}) = \exp \left( - \frac{ (z_{t}(\textbf{s}))^2}{2\tau ^2} \right) , \end{aligned}$$ （2）其中$z_t(\textbf{s})$是影响可检测性的协变量，$\tau$是控制检测衰减率的尺度参数。这种公式假设当协变量等于零时检测达到最大，随着协变量偏离这个参考值，检测概率会降低。该框架的一个关键优势是它能够灵活地适应多种检测异质性来源。通过定义$p_t(\textbf{s})$为独立半正态分量的乘积，可以扩展检测概率：$$\begin{aligned} p_{t}(\textbf{s}) = \prod _{k = 1}^{K}\exp \left( - \frac{ (z_{t, k}(\textbf{s}))^2}{2\tau _{k}^2} \right) , \end{aligned}$$ （3）其中K代表使用的协变量数量。重要的是，由于潜在生态强度和检测过程共同作用于观察到的点模式，因此无法将数据中的变化唯一地归因于其中一个因素，除非有额外的结构。为了解决这个问题，如Fithian和Hastie（2012年）所讨论的，我们指定了生态协变量$\textbf{x}(\textbf{s})$和检测协变量$z_t(\textbf{s})$，使它们代表不同的机制，从而避免了生态过程和观察过程之间的线性依赖。此外，我们在稀疏函数中不包括截距项。这样的术语是无法识别的，因为它会与潜在强度的整体尺度混淆，导致观察到的过程分解不唯一。在模型拟合之前，检测协变量进行了转换，以便半正态检测函数在 $z_{t}(\textbf{s})=0$ 时达到最大值，这对应于基线检测条件。当变量不能自然地相对于这样的基线表达时，应用了适当的缩放（最小-最大标准化）和必要时的单调变换（包括补数），以确保对检测效应的一致解释。最后，还检查了检测协变量以避免强 pairwise 相关性，从而限制了检测组件内的多重共线性。关键的是，检测机制作为一个空间过滤器，保留了潜在的生态点模式结构，同时根据协变量选择性地揭示个体。需要指定的是，$\textbf{U}_t$ 和 $\textbf{U}^*_t$ 在不同的模型拟合过程中使用。手动标注的数据 $\textbf{U}_t$ 用于拟合代表“真实”生态状态的基线模型，而自动检测 $\textbf{U}^*_t$ 用于拟合不完美的检测框架。此外，模型减轻检测不足的能力依赖于稀疏表示仍然具有信息性的操作条件。特别是，可靠地恢复潜在强度要求稀疏程度不是极端的，以便在检测到的模式中保留足够的空间信号，并且检测概率由能够有意义地捕捉可检测性变化的主要来源的协变量驱动。

2.5 模型估计
模型估计是使用 R-INLA 包（Rue 等人，2009年）通过 inlabru 接口（Bachl 等人，2019年）进行的。INLA 提供了一个计算效率高的框架，用于潜在高斯模型的近似贝叶斯推断，其特点是高斯潜在场由一组有限的超参数控制，以及非高斯似然。该方法依赖于确定性拉普拉斯近似来估计后验边际，相比传统的马尔可夫链蒙特卡洛（MCMC）方法具有显著的计算优势。

对于截距参数 $\mu _t$ 和回归系数 $\varvec{\beta }$，分配了弱信息的高斯先验，它们都以零为中心，精度为 0.001。对于空间高斯过程，为边际标准差 $\sigma _{l}$ 和范围 $\rho _{l}$（以米为单位）指定了惩罚复杂性（PC）先验（Simpson 等人，2017年）。研究区域大约覆盖 $5500 \ m^2$（$\approx 70 \times 80 \ m$），因此我们设置 $\mathbb {P}(\rho _{l} < 50) = 0.5$ 和 $\mathbb {P}(\sigma _{l} > 0.5) = 0.01$，以反映研究区域内预期的空间尺度和变异性。最后，通过一个无信息对数高斯先验对检测函数的尺度参数进行了建模，以减轻估计过程中观察到的数值不稳定性。

2.6 模型比较
在贝叶斯背景下进行模型选择需要评估标准，这些标准能够适当平衡预测准确性和模型复杂性。尽管传统的度量标准如偏差信息准则（DIC）被广泛使用，但它们对于层次结构或空间结构化的模型有众所周知的局限性（Gelfand 和 Schliep 2018；Leininger 和 Gelfand 2017）。因此，我们采用了基于空间点模式创新过程理论的预测评估框架（Baddeley 等人，2005年），并辅以适当的评分规则，如连续排名概率分数（CRPS）（Matheson 和 Winkler 1976年）。为了考虑空间异质性和时间变化，研究区域被划分为有界的子域 $B_{1}, \ldots , B_{G}$。这种空间划分使得可以在异质栖息地中进行局部残差分析，提供更详细的模型诊断。对于每次活动 t，让 $\textbf{O}_{t} \mid \lambda _{t}$ 表示一个非均匀泊松过程，其强度 $\lambda _t(\textbf{o})$ 定义在空间域 $\mathcal {D}$ 上。一个实现 $\textbf{O}_t$ 可以被划分为 $\textbf{o}_t^1, \ldots , \textbf{o}_t^{G}$，对应于每个子区域内的观测值。给定一个创新函数 $h_{t}(\cdot )$，第 g 个子集在时间 t 的创新过程定义为
$$\begin{aligned} R_{h}^{t}(B_{g}) = \sum _{\textbf{o} \in \textbf{o}_{t}^{g}} h_{t}(\textbf{o}) - \int _{B_{g}} h(\textbf{o})\,\lambda _{t}(\textbf{o})\,d\textbf{o}. \end{aligned}$$
（4）
设置 $h_{t}(\textbf{o}) = 1$ 可得到原始残差：
$$\begin{aligned} R_{\text {raw}}^{t}(B_{g}) = N(B_{g}) - \int _{B_{g}} \lambda (\textbf{o})\,d\textbf{o}, \end{aligned}$$
（5）
其中 $N(B_{g})$ 表示 $B_{g}$ 内观测到的点数。原始残差衡量了观测到的点数和预期点数之间的差异，但可能会被高强度区域所主导，从而掩盖了稀疏区域中潜在的模型缺陷。为了减轻这种不平衡，我们通过设置 $h_{t}(\textbf{o}) = 1 / \sqrt{\lambda _{t}(\textbf{o})}$ 来计算皮尔逊残差：
$$\begin{aligned} R_{\text {pearson}}^t(B_{g}) = \sum _{\textbf{u} \in \textbf{u}_{t}^{g}} \frac{1}{\sqrt{\lambda _{t}(\textbf{u})}} - \int _{B_g} \sqrt{\lambda _{t}(\textbf{u})}\,d\textbf{u}. \end{aligned}$$
（6）
这种标准化通过按预期强度的倒数加权每个观测值来稳定方差，减少了异方差性，并允许在不同密度区域之间进行平衡的残差诊断。强度函数的积分使用蒙特卡洛求积法（Berman 和 Turner 1992年）进行近似。设 $\{c_i \in \mathcal {D}\}_{i=1}^N$ 表示求积节点，$\{w_i\}_{i=1}^N$ 表示它们相关的权重。然后对 $\mathcal {D}$ 上的强度积分进行近似：
$$\begin{aligned} \int _{\mathcal {D}} \lambda _t(\textbf{o}) \, do \approx \sum _{i=1}^N w_i \, \lambda _t(c_i), \end{aligned}$$
（7）
并且这个计算在 M 个后验样本上重复进行，以表征基于残差的诊断的不确定性。为了补充残差分析，我们采用了 CRPS 作为评估预测分布的适当评分规则。在正确的模型指定下，残差应该具有零期望值（Baddeley 等人，2005年）。用 $F_{R_{\text {raw},t}}^{g}$ 和 $F_{R_{\text {pearson},t}}^{g}$ 分别表示原始残差和皮尔逊残差的预测分布，CRPS 定义为：
$$\begin{aligned} \text {CRPS}(F_{R_{\text {raw},t}}^{g}, 0)&= \int _{\mathbb {R}} (F_{R_{\text {raw},t}}^{g}(x) - \textbf{1}\{ x \ge 0\})^2 \, dx,\end{aligned}$$
（8）
$$\begin{aligned} \text {CRPS}(F_{R_{\text {pearson},t}}^{g}, 0)&= \int _{\mathbb {R}} (F_{R_{\text {pearson},t}}^{g}(x) - \textbf{1}\{ x \ge 0\})^2 \, dx. \end{aligned}$$
（9）
从概念上讲，这种预测框架解决了在复杂景观中识别空间模型何时以及为何失败的问题。通过将研究区域划分为块并应用创新过程，我们可以确定模型过度（或不足）预测的具体区域。CRPS 相对于 DIC 或 BIC 等信息标准具有明显的优势，因为它评估了整个预测分布而不仅仅是单一的摘要统计量。这对于具有层次结构的空间点过程模型特别适用，其中预测校准和不确定性量化是主要关注点。较低的 CRPS 表明模型校准得更好，意味着其预测值更接近观测值。

3 结果
由于遗漏的检测无法直接观察到，因此处理它们需要关于它们依赖于可观测协变量的明确假设。我们假设遗漏检测的概率在空间上不是均匀分布的，而是根据三个因素系统地变化。首先，我们预计在高局部密度区域遗漏检测更频繁，因为个体可能会重叠或遮挡彼此。为了捕捉这种效应，我们定义了局部频率 ($f_{r}$) 为以每个检测为中心、半径为 r 的圆内预测的点数。空间尺度 r 的选择是由数据的经验空间结构指导的。为了选择一个适当的半径，我们检查了大多数检测至少有一个邻居的半径，并发现 $r = 1$ 米可以确保大约 $85\%$ 的覆盖率。因此，这个半径代表了可以一致观察到拥挤效应的最小空间尺度，提供了在捕捉局部相互作用和避免过于稀疏的邻域之间的实用平衡。其次，我们预计检测概率与神经网络检测器分配的置信度分数（CS）有关，该分数的范围是从 0 到 1。置信度分数较低的个体更可能代表在算法性能较差的区域中的边缘检测。第三，我们预计这与对象大小有关，通过每个边界框的对角线长度（DL）来近似，其范围也从 0 到 1。较小的个体本质上更难以检测。为了将这些协变量纳入半正态检测函数，我们应用了变换，使得每个变量作为可检测性的单调修饰器。所有协变量首先使用最小-最大标准化重新缩放到单位区间。然后我们对置信度分数和边界框对角线使用补数，对局部频率使用倒数变换，以便较大的转换值一致地对应于较低的可检测性。初步的探索性分析（Sangiovanni 等人，2025年）表明，检测错误在栖息地类别中大致均匀分布，这表明栖息地类型不会系统地影响可检测性，因此没有将其包含在稀疏函数中，以避免不必要的模型复杂性。表 2 使用原始残差（下表）和皮尔逊残差（上表）比较了五个活动中的方法。

在所有模型中，潜在强度函数使用相同的协变量集进行指定，即 P. Oceanica 的百分比覆盖度、海底的坡度（标准化）和用于捕捉残差空间变化的高斯过程组件。模型 1 是根据手动标注的位置拟合的，作为代表最接近真实点模式的基准。因此，它的作用是提供评估遗漏检测引起的偏差的参考，并评估稀疏方法在多大程度上可以恢复潜在的生态信号。模型 2 是根据未校正的检测位置拟合的，而模型 3 包括了一组将稀疏机制应用于检测子集的模型。这些模型包括单独使用 $f_{r}$、CS 和 DL 的规格，以及它们的组合。残差是在研究区域上叠加的 $18 \times 18$ 网格上计算的，遵循第 2.6 节中描述的程序。表 2 报告了基线模型和表现最佳的稀疏模型的 CRPS 值，使用皮尔逊和原始残差。较低的 CRPS 值表示更好的预测性能，因此应解释为模型拟合的改进。

从这种比较中出现了几种模式。首先，模型 2 的性能明显低于模型 1，平均皮尔逊残差为 6.694，而模型 1 为 3.990；原始残差为 2.092，而模型 1 为 1.500。这证实了在真实值中忽略遗漏检测会在空间强度估计中引入相当大的偏差。其次，所有稀疏模型相对于模型 2 都有系统的性能改进。这种改进在所有五个时间活动中都是一致的，表明稀疏机制成功纠正了空间结构化的遗漏检测。第三，在测试的稀疏规格中，通过半正态函数的乘积结合局部频率和置信度分数的模型（模型 3 conf $\times$ freq）取得了最佳性能。这表明遗漏检测与局部拥挤和边缘检测最为相关，如低置信度分数所示。然而，没有一个稀疏模型完全恢复了模型 1 的性能。尽管如此，与模型 2 相比的重大改进表明，当真实数据包含遗漏检测时，稀疏框架提供了一种减少偏差的实用方法。

为了评估稀疏方法是否恢复了潜在的生态关系，我们比较了模型 1、模型 2 和最佳稀疏模型的强度函数参数的后验分布。图 4 显示了季节性截距、环境协变量和半正态尺度参数的后验均值和 $95\%$ 可信区间。对于季节性截距，模型 3 与模型 1 的一致性更好。这表明通过稀疏考虑遗漏检测部分恢复了人口强度的真实时间变化。对于环境协变量，模型 2 和模型 3 的后验分布相似。这表明虽然遗漏检测偏置了绝对强度估计（由截距捕获），但它们对环境协变量的相对影响较小。总体而言，稀疏校正主要改变了估计强度的幅度，而基本上保持了生态效应的空间分配不变。稀疏尺度参数的后验分布表明稀疏程度适中，幅度相当，表明局部拥挤和检测置信度对遗漏检测的空间模式贡献大致相等。

图 4
这张图像的替代文本可能是使用 AI 生成的。

4 讨论
4.1 稀疏函数和替代公式
所选择的稀疏函数提供了一种稳健且易于处理的机制，用于纠正遗漏检测。我们的框架从根本上基于这样一个前提：数据是真实总体的代表性样本。这种保守的立场支撑了我们决定避免使用复杂的测量误差模型（Chakraborty和Gelfand 2010），因为我们的数据没有表现出需要这种额外复杂性的空间位移或错位。我们也考虑了其他建模方法。我们探讨了“pogit”规范（Dorazio 2014；Winkelmann和Zimmermann 1993），但可识别性约束（Fithian和Hastie 2012）以及初步结果表明，使用这种规范会导致数据过度稀疏且拟合效果较差；而添加高斯过程来表示几乎不存在的情况（Guttorp等人2026）在没有辅助数据的情况下也难以准确识别这一潜在变量（Jones-Todd等人2018）。最后，非参数稀疏方法（Arima等人2024）在概念上很有吸引力，但目前仍需要进一步发展，以适应连续空间点过程的环境，并且在我们看来，它们还不能自然地嵌入到潜在的高斯建模框架中。因此，对于现实世界的生态数据来说，更简单的参数规范更为合适。在标准的调查条件下，这种规范仍然是可识别的，并且能够可靠地校正遗漏的检测结果。

4.2 限制与可识别性
一个关键的实践考虑因素是处理检测误差时的固有不对称性。我们的方法旨在通过优先采用保守的检测阈值来抵御“幽灵点”（即数据中的异常值），但这种设计选择使得系统对遗漏的检测结果非常敏感。当“幽灵点”很少出现且遗漏的检测结果遵循环境协变量的规律时，该框架能够可靠地运行。相反，如果遗漏检测率超过某个临界阈值，或者如果检测机制是随机的且与可观测数据脱节，模型就会失效。此外，事先确定哪些环境变量对解释检测失败最为相关仍然是一个巨大的挑战，这表明模型的可靠性最终取决于是否有信息丰富、空间索引的协变量来解释检测差距。为了具体解决与误差不对称性相关的限制，可以采用类似于在退化点模式分析中使用的潜在变量规范（Chakraborty等人2011），这可能为纳入未观测事件提供未来的途径。

4.3 不确定性量化与模型选择
该方法论对不确定性和模型选择也有重要影响，它代表了与传统方法的不同，传统方法通常将检测和空间过程结合在同一个建模阶段中。将检测不确定性与空间建模分开，可以更清晰地区分观测误差和潜在的生态结构。然而，由于对象检测器的输出被视为确定性输入，不确定性并没有在各个阶段之间正式传递；相反，变异性仅通过第二步中的LGCP（Latent Gaussian Component Process）部分地被捕捉到。未来的工作可以利用共形预测（Vovk等人2022；Deliu和Liseo 2025）或相关方法来定义更具有信息量的检测函数参数先验，并改进不确定性量化。从模型选择的角度来看，标准的交叉验证（CV）（Cronie等人2024；Poggio等人2026）对于稀疏点过程来说存在固有问题。由于真实的点模式是无法观测到的，因此使用基于检测的数据来评估预测会引入循环性。在这种情况下，实践者应该优先考虑基于训练数据的残差诊断。虽然这不是解决模型选择挑战的完整方法，但它提供了一种更实用且理论基础更扎实的方式来比较在检测不完美的系统中的不同规范。

4.4 生态相关性
从生态学的角度来看，准确识别底栖种群的空间分布对于理解其恢复力以及为管理决策提供信息至关重要。忽略这些系统中的检测偏差可能会导致关于种群健康和栖息地适宜性的结论严重失真（Royle和Link 2006；Monk 2014）。在这项工作中，海胆仅被作为一个潜在的未来应用示例提及，并未进行实际分析。基于现场视觉普查数据的先前研究（Addis等人2012）表明，海胆种群通常表现出强烈的小尺度自相关性和斑块状分布模式。因此，空间模型在估计检测概率的同时，能够恢复实际的空间强度并评估其与环境协变量的关系，这可以成为监测底栖群落的宝贵工具。随着对自动化图像调查和水下摄影测量的依赖增加，这一挑战变得更加突出。尽管如此，最近的努力（Piazza等人2019；Sastrantaara等人2024）在绘制海胆密度、大型藻类覆盖范围以及其他底栖物种的分布图方面取得了进展，这些工作通过提供成本效益高、质量好的数据，在时间和空间尺度上大大扩展了监测的可行性。然而，在快速评估空间模式方面仍存在一些挑战。实际上，将水下摄影测量技术与无人平台（如无人机UAV）结合用于浅水应用（Sugara等人2025）时，往往会生成大量的图像数据集，这些数据集需要使用基于深度学习的检测器进行分析，这可能会无意中引入检测偏差。

总之，我们的方法在可处理性、可解释性和方法论严谨性之间取得了平衡，同时也承认了存在的局限性。研究结果表明，在使用基于深度学习的对象检测系统时，手动注释中的遗漏检测会显著影响空间强度的估计。虽然这种校正不能完全消除由不完美手动注释引入的偏差，但它比那些忽略训练数据中检测误差的简单方法有了显著改进。从应用的角度来看，这意味着更稳健的监测信号，提高了生态调查中趋势估计和空间比较的可靠性。这项工作的实际价值在于它能够提供更可靠的恢复工作和管理干预措施的评估。同时，它支持部署可扩展的、基于图像的底栖监测工作流程，而不需要依赖不切实际的完美检测假设。我们的建模方案是根据现有数据量身定制的实用折中方案，未来还有许多扩展的空间。

5. 补充信息
补充信息提供了稀疏机制的后验均值，并将所提出的方法与其他稀疏函数规范下的方法进行了比较。

热点排行