评估公共监狱登记册在公共卫生实践中的应用价值:华盛顿州2023年实证研究
《BMC Public Health》:Evaluating the utility of public-facing jail registers to inform public health practice, Washington state 2023
【字体:
大
中
小
】
时间:2025年08月09日
来源:BMC Public Health 3.6
编辑推荐:
本文针对刑事司法系统数据共享难题,探讨了利用公共监狱登记册进行自动化数据采集以支持公共卫生实践的可行性。研究人员系统评估了华盛顿州公共监狱数据的可用性、完整性及用于记录链接的效用。结果表明,该数据源完整性高,与HIV登记册链接的敏感性和阳性预测价值分别达87.7%和88.8%,为公共卫生项目(如HIV关怀再链接)提供了有效的数据支持。
在美国,刑事司法系统与公共卫生之间存在着一种复杂而紧密的联系。监狱和拘留所中关押着大量边缘化和医疗服务不足的人群,这为传染性和非传染性疾病的筛查、关怀链接和治疗提供了关键机会。尽管利用刑事司法数据支持公共卫生工作的价值已被认识数十年,但数据保护规定和司法管辖区边界往往使得有效的数据共享困难重重。惩教机构通常对数据共享持谨慎态度,担心数据保护风险、对外部组织缺乏信任以及自身管理风险能力不足。这就形成了一个矛盾:一方面,监禁场所是触及高危人群的重要切入点;另一方面,获取这些人群的信息却面临重重障碍。
那么,是否存在一种既合法合规又能有效支持公共卫生实践的数据获取途径呢?答案是可能存在的。在美国,许多州和地方的监狱被要求公开发布当前在押人员名单。这些“公共监狱登记册”理论上可以成为公共卫生数据的来源。然而,在实际应用中,这些数据面临着几大挑战:信息分散在众多网站上,格式不一,手动搜索费时费力;数据具有瞬时性,人员释放后信息即被移除;最重要的是,这些数据的完整性和及时性如何,其有限的标识信息(有时仅包含姓名)是否足以支持精准的记录链接,这些都是未知数。自动化网络爬虫技术或许能解决数据收集和整理的难题,但在此之前,必须首先科学评估这些公共数据的质量。
为了回答这些问题,由Steven Erly等人组成的研究团队在《BMC Public Health》上发表了一项研究,旨在以华盛顿州为例,评估公共监狱登记册的可用性、完整性及其用于记录链接的效用。这项研究不仅描述了一个潜在的数据来源,更重要的是,它为公共卫生机构如何理解和利用这类数据提供了科学的依据。
研究人员主要运用了几项关键技术方法来完成这项评估。首先,他们采用了网络爬虫技术,使用R软件(包括HTTR、Rvest、PDFTools等程序包)为每个监狱设施编写自动化脚本,在2023年全年每天定时下载公共登记册数据。其次,为了评估数据完整性,他们进行了数据源对比,将爬虫获取的数据集与华盛顿州 Jail Booking and Release System (JBRS) 这一官方数据库进行比对。最后,为了评估数据效用,他们设计了一项模拟记录链接实验,使用King County的监狱预订数据和HIV监测数据作为已知关联的数据集,应用一种简单的匹配算法,测试在不同标识符组合下链接的敏感性(Sensitivity)和阳性预测值(Positive Predictive Value, PPV)。
公共监狱数据的可用性
研究团队首先系统地梳理了华盛顿州所有惩教设施的公开数据情况。截至2023年底,该州71个设施中,有61个(86%)提供了完整的在押人员名册,4个提供部分信息,6个无法访问。在所有可用的名册中,100%包含在押人员姓名,但其他标识符的提供情况则参差不齐:33%提供年龄或出生日期(Date of Birth),仅有13%提供其他标识符(如种族、性别等)。从数据获取方式来看,超过一半(53%)的设施通过API(应用程序编程接口)提供数据,34%通过HTML网页,其余则通过PDF下载或电子邮件报告。这项调查表明,华盛顿州公共监狱数据的整体可用性较高,但不同设施提供的信息详略程度差异显著。
数据完整性评估
接下来,研究评估了爬虫所获数据的完整性。通过与JBRS数据库对比,研究人员发现,在2023年所有被JBRS记录的独特个体中,有85%也出现在了每日爬虫获取的数据集中。如果只考虑爬虫成功运行的日子,这一比例提升至89%。对于那些被监禁超过24小时的个体,爬虫数据的覆盖率达到95%。数据完整性因监狱类型和获取方式而异,县监狱(90%)高于市监狱(81%),通过API或HTML获取的数据(89%)优于通过PDF或邮件报告获取的数据(82%)。未能被爬虫数据捕获的个体,其平均监禁时间显著短于被成功捕获的个体(中位数<1天 vs. 2天),这表明短暂拘留是数据缺失的主要原因。综上所述,公共监狱登记册能够较为完整地覆盖在押人员,尤其是那些监禁时间较长的人员。
记录链接的效用评估
数据的可用性和完整性是基础,但其最终价值体现在能否与公共卫生数据成功链接。为此,研究团队进行了一项精巧的模拟实验。他们利用King County的监狱预订数据和HIV监测数据(来自正在进行的JBLink项目),模拟使用公共监狱数据中常见的不同标识符组合进行记录链接。
结果显示,链接的准确性高度依赖于可用的标识符。当使用“未分割姓名+出生日期”进行匹配时,敏感性最高(97%),阳性预测值(PPV)也达到96%。当使用“分割姓名(名和姓分开)+年龄”或“未分割姓名+年龄”时,敏感性降至89%,PPV仍为96%。如果仅使用姓名(无论是否分割)进行匹配,敏感性为85%,但PPV显著下降至77%,意味着会产生较多的误匹配。作为 benchmark(基准),研究中使用的JBLink项目所采用的复杂概率链接算法(fastLink)的敏感性为90%,PPV为96%。根据华盛顿州公共数据中各种标识符组合的实际分布比例进行加权平均后,估计整个爬虫数据集与HIV登记册链接的敏感性为87.7%,PPV为88.8%。这表明,尽管标识符有限,但公共监狱数据用于记录链接的整体效用相当高,甚至在某些情况下优于更复杂的算法。
研究还特别关注了链接过程的公平性。敏感性分析发现,链接算法的表现在不同种族/族裔群体间存在差异。对于自称为西班牙裔或拉丁裔/a/x(Hispanic or Latino/a/x)的个体,链接的敏感性普遍低于总体人群(范围在74%-95%之间)。这一发现警示我们,依赖于姓名的链接算法可能存在文化偏见,在应用于公共卫生实践时必须考虑其可能加剧健康不公平的风险。
结论与讨论
这项研究得出明确结论:华盛顿州的公共监狱登记册是一个完整性高、且包含足够信息用于与公共卫生数据进行记录链接的数据源。通过网络爬虫技术,公共卫生部门可以相对容易地获取这些数据,并将其用于诸如定位需要重新链接到医疗服务的HIV感染者等活动中。
然而,研究的讨论部分也指出了几个重要的考量和局限性。首先,利用公开数据虽然绕过了繁琐的数据共享协议,但也可能规避了与惩教机构必要的合作流程,而这些合作对于成功实施基于监狱的公共卫生项目至关重要。其次,在使用这些数据时,必须建立严格的护栏,确保健康信息不会不适当地分享给惩戒人员,而应侧重于促进与监狱内健康社工的沟通或直接与当事人接触。此外,还存在隐私伦理问题,尽管有研究表明利益相关者普遍支持利用公共监狱数据支持HIV关怀再链接工作。
本研究的局限性在于,用于对比的JBRS数据库本身并未覆盖州立监狱和部落设施,因此对这部分数据的完整性评估不完全。数据缺失的原因及其可能引入的偏差尚不完全清楚。此外,记录链接的效用会因目标人群的不同而异,本研究的结果在推广到其他公共卫生领域时需要谨慎。
尽管存在这些挑战和局限,这项研究的意义是深远的。美国拥有全球最高的监禁率,被监禁人群的健康与整体公共健康密不可分。公共监狱登记册的自动化采集和分析,为卫生部门提供了一个宝贵的工具,用以理解刑事司法卷入对健康的影响,并主动为那些最需要服务的边缘化人群协调关怀资源。随着技术的进步和伦理框架的完善,这类数据有望在促进健康公平方面发挥越来越重要的作用。这项研究为公共卫生实践者打开了一扇窗,展示了一种在现有法律框架下,创新性地利用公开信息以改善弱势群体健康结局的可能性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号