基于模型的空间扫描统计量:提升高死亡率风险空间聚类检测特异性的新方法
《Environmental and Ecological Statistics》:A model-based scan statistic with enhanced specificity for detecting spatial clusters of high mortality risk
【字体:
大
中
小
】
时间:2025年12月13日
来源:Environmental and Ecological Statistics 1.8
编辑推荐:
本研究针对传统空间扫描统计量(SSS)在检测死亡率空间聚类时存在假阳性聚类和误包含低风险区域的问题,提出了一种基于广义线性模型扫描统计量(DClusterm)的数据驱动初始化方法——Top-down流程。该方法首先利用改进的Besag-York-Mollié(BYM2)模型识别高风险区域,再将其作为聚类算法的初始点,显著提高了聚类特异性并降低了计算成本。仿真实验和意大利帕多瓦省的案例研究验证了该方法在公共卫生和疾病制图领域的应用价值。
在全球范围内,识别具有过高死亡率的地理区域是理解健康差异和实施有效公共卫生政策的关键步骤。这通常意味着需要识别出单个高风险区域以及由相邻区域组成的死亡率显著高于周边地区的空间聚类。传统上,空间扫描统计量(Spatial Scan Statistics, SSS)是检测此类空间聚类的常用工具,它通过移动窗口扫描区域,检验窗口内外结果的显著性差异。然而,这些技术存在明显局限:常常检测到虚假聚类,或将非风险区域错误地包含到现有聚类中,导致流行病学结果不可靠。问题的根源部分在于扫描窗口的形状(通常假定为圆形或椭圆形),当真实聚类形状高度不规则时,窗口的刚性会导致误判;另一方面,似然比检验统计量的值可能随着纳入更多区域而增加,即使这些区域并非真正处于高风险状态。因此,从流行病学角度出发,一个具有高特异性的筛查工具更为可取,它能以更高的准确性检测出更少、更小但具有显著死亡率过高证据的聚类。
为了解决上述挑战,发表在《Environmental and Ecological Statistics》上的研究“A model-based scan statistic with enhanced specificity for detecting spatial clusters of high mortality risk”提出了一种名为“Top-down”的创新流程。该研究旨在提升基于广义线性模型(Generalized Linear Model, GLM)的扫描统计量(具体指R库DClusterm)的性能,使其在死亡率制图(Mortality Mapping)中更可靠、更高效。
为了回答核心问题,研究人员设计了一套结合了贝叶斯空间模型和扫描统计量的分析流程。Top-down流程的核心思想是序列化地结合个体高风险区域的识别与后续的聚类形成过程。具体包括四个步骤:首先,使用BYM2模型(Besag-York-Mollié模型的一个改进版本,解决了参数可识别性和尺度统一问题)识别出具有显著死亡率过高的单个区域;其次,以这些高风险区域作为初始点,运行DClusterm算法来探索其周边区域,形成候选聚类;接着,对候选聚类进行后处理,移除重叠部分并丢弃过小的聚类(如少于3个区域);最后,对聚类的p值进行多重检验校正(如Holm-Bonferroni校正),仅保留统计显著的聚类,若存在重叠则保留p值最小的那个。这种方法类似于模态聚类(Modal Clustering),将聚类过程从数据密度函数的“模式”(此处即BYM2识别出的高风险区域)开始初始化,从而在概念上增强了方法的整体特异性,并减少了算法初始化的点数,降低了计算成本。研究人员将这种方法与传统的“Bottom-up”方法(从地图上每个区域初始化DClusterm)进行了对比。
本研究主要运用了几个关键技术方法:1) Besag-York-Mollié 2 (BYM2) 模型:一种分层空间贝叶斯模型,用于疾病/死亡率制图,通过结合条件自回归(Conditional Autoregressive, CAR)先验的结构化随机效应和非结构化随机效应来估计空间相关的死亡率风险,并利用惩罚复杂性先验(Penalised Complexity Prior)提高模型稳健性,参数估计采用集成嵌套拉普拉斯近似(Integrated Nested Laplace Approximation, INLA)算法。2) 广义线性模型扫描统计量(DClusterm):一种基于泊松回归模型的空间聚类检测方法,通过引入指示聚类的哑变量,并利用似然比检验判断聚类内外风险差异的显著性,能检测不规则形状聚类。3) Top-down 流程:本研究提出的核心方法,整合BYM2和DClusterm,先识别高风险“种子”区域再扩展聚类,以提高特异性。案例研究数据来源于意大利帕多瓦省(Padua province)2017-2019年按 municipality 划分的死亡率数据,并纳入 deprivation index 和 property sale prices 两个社会经济协变量。
仿真研究验证
研究人员通过两个仿真实验评估Top-down流程的性能。
实验基于帕多瓦省地图(106个区域),设置了9种不同空间结构方差(σu2true)和非结构方差(σv2true)组合的场景,每个场景生成100个数据集,包含1个真实聚类和2个孤立高风险区域。结果表明,Top-down方法在大多数场景下能更准确地识别真实聚类数量(概率≥0.92,前6个场景),显著优于Bottom-up方法(概率0.61-0.70)。Top-down的特异性(Specificity)在多数场景下显著高于Bottom-up(p值<0.05),而灵敏度(Sensitivity)则相当。当聚类内风险增加(δtrue=0.45)与孤立区域风险增加(γtrue=0.4)相近或略高时,Top-down表现稳定。计算时间上,Top-down(平均约23-30秒)远低于Bottom-up(平均约87-96秒),显示了其计算效率优势。
实验基于美国西海岸县地图(202个区域),测试了真实聚类数量(Ktrue)从1到5的情况。当Ktrue≤ 2时,Top-down在Rand指数和特异性方面显著优于Bottom-up,且能更准确地估计聚类数量。随着聚类数量增加,两种方法性能均下降,但Top-down仍保持较高的特异性,且计算时间(Ktrue=5时平均105.46秒)仍远低于Bottom-up(平均563.57秒)。
案例研究:帕多瓦省死亡率分析
研究人员将Top-down流程应用于意大利帕多瓦省2017-2019年的死亡率数据,按性别和死因(主要死因、循环系统疾病、呼吸系统疾病、恶性肿瘤)分别分析,并考虑了社会经济剥夺指数和房地产售价两个协变量。
在男性数据中,BYM2模型筛选出房地产售价对数(负相关)和剥夺指数(正相关)作为显著协变量,并识别出17个西南部和中部的高风险城市。Top-down流程在此基础上发现一个由29个城市组成的显著死亡率聚类(SMR增加16.1%,p=1.7×10-4),位于该省西南部。而Bottom-up方法在男性数据中未检测到显著聚类,在女性数据中检测到三个聚类,但只有一个与Top-down结果一致,另外两个聚类在其他特定死因分析中未得到证实,提示其可能为假阳性。
在男性数据中,BYM2识别出24个西南部高风险城市。Top-down和Bottom-up均识别出一个包含34个城市的西南部聚类(SMR增加18%,p=1×10-5),与主要死因分析结果一致,增强了该区域存在真实死亡率聚集的证据。女性数据分析也得出类似结论。
对于呼吸系统疾病,男性数据中未发现高风险区域或聚类。女性数据中BYM2识别出一个高风险区域,但未形成显著聚类。对于恶性肿瘤,尽管BYM2识别出一些高风险城市(男性西南部和中部,女性中部),但DClusterm未检测到显著的空间聚类。
研究结论与意义
本研究提出的Top-down流程通过将BYM2模型的高风险区域识别与DClusterm的聚类检测能力相结合,有效解决了传统空间扫描统计量特异性低、易产生假阳性聚类的问题。仿真研究表明,Top-down在准确估计聚类数量、提高分类特异性方面优于传统的Bottom-up方法,同时大幅降低了计算成本。在帕多瓦省的案例研究中,Top-down一致性地识别出西南部地区存在一个与循环系统疾病相关的死亡率聚类,结果稳健。而Bottom-up方法的结果则出现不一致,提示其可能存在假阳性检测。
从公共卫生角度看,Top-down提供的更高特异性有助于更准确地定位真正的风险区域,避免资源误配。案例研究还揭示了社会经济因素(如剥夺指数、房地产价格)与死亡率风险的相关性,但其关系在男女性和不同死因间存在差异,值得进一步探究。
该研究为空间流行病学分析提供了一种更可靠、更高效的工具。未来研究方向包括将方法扩展到多变量(多死因联合分析)、时空数据建模、识别低风险区域,以及在更大规模地图和天体物理学等其他领域的应用。总之,这项研究显著改善了现有聚类检测方法,为理解和干预地域性健康差异提供了更坚实的统计基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号