解决空间点模式中的重复数据问题:一种使用K函数的改进最小对比度方法
《Spatial Statistics》:Addressing duplicated data in spatial point patterns: A modified minimum contrast approach using K-functions
【字体:
大
中
小
】
时间:2026年02月11日
来源:Spatial Statistics 2.5
编辑推荐:
空间点过程模型处理重复数据的方法研究。提出Modified Minimum Contrast(MMC)方法,通过调整滞后距离下限解决地理编码导致的重复点问题,无需修改原始数据。在阿富汗冲突事件真实数据及多种模拟场景中验证,有效解决传统抖动或删除数据的偏差问题。
陈凌凌|俊明基|斯科特·J·库克
美国休斯顿大学数学系
摘要
空间点过程模型被广泛应用于社会和环境科学中的各种点模式数据分析。然而,在拟合点过程模型时一个严重的障碍是重复数据的问题,即多个观测值具有相同的空间坐标。这种情况通常是由于地理编码过程中的决策导致的,例如为观测值分配代表位置(例如,聚合级别的质心)。由于空间点过程模型假设位置是唯一的,研究人员通常采用临时解决方案(例如,删除重复数据或添加抖动)来处理分析前的重复数据。作为替代方案,本研究提出了一种改进的最小对比度(MMC)方法,该方法调整了推断过程以考虑重复数据的影响,而无需修改数据。所提出的MMC方法应用于对数高斯Cox过程(LGCP)模型,重点关注控制点模式聚类结构的二阶强度参数的推断。在多种模拟条件下,我们的结果展示了所提出MMC方法的优势。随后,我们将MMC方法应用于2008-2009年阿富汗冲突事件的真实数据案例。
引言
事件数据(即仅存在与否的数据)在环境科学、种群生态学、社会学和政治科学等多个领域都很常见。例如,在社会科学中,它们被用来分析社会和政治行为的空间模式,包括抗议活动(Earl等人,2004年)、犯罪(Krieger等人,2015年)、恐怖主义(LaFree,2019年)和民间暴力(Cederman和Gleditsch,2009年)的分析。这些数据在事件层面进行编码——即提供了关于离散事件的“谁在何时何地做了什么以及为什么”的信息——从而能够更深入地了解其决定因素。随着我们从二手来源自动识别和提取事件的能力不断提高(Lee等人,2019年),事件数据在未来可能会有更广泛的应用。
然而,由于这些数据的众所周知的局限性(例如,事件缺失、地理位置错误等),事件数据在社会科学应用中的许多潜力尚未得到充分发挥。社会科学中的事件数据主要来自媒体报道,这可能会导致描述偏差,因为事件细节可能会被不准确地报道(Earl等人,2004年)。例如,最初的媒体报道可能包含关于事件发生地点的不准确信息(Weidmann,2015年)。在这种情况下,研究人员通常会为观测值分配代表性的空间坐标(即,对观测值进行“ snapping”操作),例如将观测值与报告事件的行政单位的质心对齐。
尽管考虑到可用信息的固有限制,这可能是最佳选择,但这些地理编码决策给希望应用点过程模型的分析师带来了两个问题。首先,分配的位置可能与真实位置有较大偏差,即地理位置误差,从而威胁到使用观测到的点模式得出的任何推断的有效性。其次,由于多个事件可能被分配到同一个位置,重复数据的可能性显著增加。在应用空间点过程模型时,重复数据会引发问题,因为这些模型通常假设一个“简单”的过程,即没有两个点会出现在同一个位置(Daley和Vere-Jones,2003年,第47页)。
在这里,我们关注后者问题——即重复数据——因为这个问题尚未得到足够的关注。虽然重复数据的后果(例如,不可逆的协方差矩阵)是众所周知的,但尚未有广泛接受的解决方案。一种方法是考虑非简单过程,例如Schoenberg(2006年)为时间点过程开发的方法。这种方法适用于那些认为重合点是潜在过程的一部分的情况(即真正的重合),而不是由于测量工具或后续数据处理的限制而产生的重合。我们的关注点是后者类型,即潜在过程是简单的,而重复数据是在数据收集过程中产生的。然而,解决方案非常有限,因为我们的文献调查显示,大多数应用研究人员采用临时补救措施,如数据删除(即删除重复观测值)和数据操作(即对点位置进行抖动)。虽然这些方法可以避免重复点的问题,但会带来样本选择偏差和位置信息的误差。
鉴于这些现有方法的局限性,我们提出了一种通过调整推断过程来处理重复数据的策略,这种方法既不需要修改数据,也不需要改变假设的过程。具体来说,我们通过对差异度量的滞后限制引入一个正的下限,提出了改进的最小对比度(MMC)估计方法。我们证明了使用正下限可以通过排除距离为零的点对来处理重复数据。虽然在其他地方的MC估计中也考虑过使用非零下限,但这通常是为了避免接近零距离时的计算不稳定(Davies和Hazelton,2013年;Siino等人,2018年;D’Angelo等人,2023年)。在将这种方法扩展到处理重复数据时,我们还提供了一个基于样本几何特征的实用规则来选择这个下限的值,这应该有助于我们在涉及由于“snapning”操作产生的重复数据的应用研究中实施这种方法。我们在对数高斯Cox过程(LGCP)模型的背景下介绍并评估了这种方法;然而,它适用于任何具有封闭形式理论函数的参数点过程(例如,Thomas过程、Neyman–Scott过程)。
本文的其余部分组织如下:第2节介绍了重复数据的原因和后果,并总结了现有的处理重复数据的方法。然后,我们提供了两个真实的例子来说明重复数据是如何产生的以及它们对点过程的函数的影响,这是一个广泛使用的点过程汇总统计量。第3节详细介绍了我们在分析包含重复数据的观测点模式时使用的MMC估计方法。第4节设计了模拟场景,以比较所提出方法与现有方法的性能。第5节将这些方法应用于阿富汗的真实冲突数据,最后在第6节进行总结。关于估计一阶强度函数带宽选择的详细信息在附录中提供。
部分摘录
动机
在事件级别数据中,研究人员经常遇到两种类型的重复数据:(i)同一事件的多个条目;(ii)具有相同空间坐标的多个事件。前者是指同一事件的多个记录被输入样本中——可能是由于多次报告等原因——应在数据分析阶段(即去重)之前被删除。后者是指当不同的事件或
提出的方法
上述每种处理重复数据的方法都以某种方式修改了原始的空间点模式数据,要么通过删除、抖动,要么重新分配观测值。为了开发一种更原则性的处理重复数据的方法,我们避免修改数据,而是调整推断方法以适应重复数据。这里我们关注LGCP模型中的重复数据,LGCP是一种广泛用于分析空间点模式数据的模型。
模拟研究
为了评估我们提出的MMC方法与常用替代方法在拟合LGCP模型时的有限样本性能,我们在不同重复程度下进行了一系列模拟研究。如第1节所述,我们假设所有场景下的潜在过程都是简单的,模拟了具有不同样本几何形状、均值结构和空间相关性的LGCP点模式(具体参数设置总结在表1中)。这对我们的研究非常重要
应用
为了证明我们提出的方法在真实数据上的有效性,我们现在重新审视我们的一个激励示例:2008-2009年阿富汗的冲突事件,即SIGACTS和GED数据。图14显示了SIGACTS和GED数据集中的空间点模式,包括包含重复数据的空间位置。我们考虑了对两个数据集使用非均匀LGCP模型。我们使用SIGACTS的结果作为参考案例,因为如上所述,SIGACTS中的位置坐标是
讨论
在这项研究中,我们考虑了分析和建模具有重复数据的空间点模式的挑战。现有的处理重复数据的方法通常涉及修改原始数据,要么删除重复观测值,要么向报告的位置添加噪声。虽然如果重复观测值的数量较少,这些策略可能是可行的,但由于
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号