解锁中国街道与社区犯罪时空分布奥秘:构建百万级数据集推动跨学科研究

【字体: 时间:2025年03月21日 来源:Scientific Data 5.8

编辑推荐:

  为解决中国街道和社区犯罪数据匮乏问题,研究人员构建约百万条犯罪记录数据集,助力多领域研究及政策制定。

  在社会发展进程中,犯罪问题一直是影响社会稳定、经济发展和人民安全的重要因素。街道犯罪和社区犯罪,一个发生在公共空间,如街道、广场等地,另一个主要出现在居民小区和社区内,它们多集中在人口密集的城市区域,就像隐藏在城市角落里的 “暗雷”,时刻威胁着人们的生命、财产安全和心理健康。
联合国可持续发展目标(SDGs)对这些问题高度关注,其中 SDG 11 呼吁打造包容、安全、有韧性和可持续的城市住区,SDG 16 致力于打击有组织犯罪,降低各类暴力及相关死亡率。然而,精准掌握街道和社区犯罪的发生地点意义重大。对普通民众而言,这能提升风险意识,让人们在高犯罪区域活动时更加谨慎;对政府部门来说,全面的时空犯罪数据有助于合理分配警力资源,对犯罪高发社区进行针对性治理。

在西方国家,像美国和英国,已经建立了完善的犯罪数据集基础设施,芝加哥、纽约、洛杉矶以及伦敦等城市都提供公开的犯罪数据接口,为跨学科研究和居民安全保障提供了有力支持。但在中国,大规模、可靠且公开的街道犯罪数据却十分有限。这一方面是由于各地经济发展水平、社会环境和政府透明度存在差异;另一方面,过去中国快速的城市化进程使得城市空间和社会结构发生巨大变化,犯罪事件可能随之增多,而相关研究多依赖公安机构的受限数据,只能在内部网络进行计算分析,无法公开共享,这严重阻碍了不同城市研究结果的交叉验证和对比分析。

为了填补这一数据和研究空白,来自香港中文大学地理与资源管理系、香港中文大学太空与地球信息科学研究所,以及湖南建筑设计院集团有限公司的研究人员展开了深入研究。他们的研究成果发表在《Scientific Data》上,构建了一个包含约 100 万条街道和社区犯罪记录的数据集,覆盖中国大陆 31 个省级行政区、222 个市级分区和 548 个县(区)级辖区。该数据集意义非凡,它能够助力研究犯罪活动与建筑环境特征、房地产价值、城市化水平和人口流动模式等城市因素之间的双向关系,还能用于复杂的时空分布和热点分析,以及政策干预的双重差分(DID)分析,同时为评估现有派出所部署、巡逻路线设计和危机管理模拟提供重要依据。

在研究过程中,研究人员采用了多种关键技术方法。首先,他们利用中国裁判文书网这一统一的国家法院判决文书库,通过关键词检索获取了 200 多万份与街道和社区犯罪相关的法院判决书。这些判决书虽包含丰富信息,但多为非结构化文本,于是研究人员借助大语言模型(LLMs),如谷歌的 Gemini - 1.5 - Flash - Latest 模型 API,进行命名实体识别(NER)任务,从海量文本中提取结构化数据。之后,利用百度地图 API 的地理编码服务,将犯罪地点的文本描述转换为地理坐标。此外,还设计了基于正则表达式的解析方法,把 LLM 从中文文本中提取的日期和时间信息转换为标准化的日期 - 时间格式。

研究结果主要从以下几个方面呈现:

  1. 数据集结构与内容:该数据集大小约 7GB,包含众多关键字段,如案件唯一标识符(case_number)、案件类型(case_type)、判决法院名称(court_name)、法院所在城市(city)、犯罪地点的文本描述(incident_location)及其地理详情(incident_province、incident_city、incident_country)、犯罪时间的文本格式(incident_time)和标准化时间戳(formatted_datetime)、判决日期(judgment_date)、地理空间数据(longitude 和 latitude)、受害者(victim)和被告(defendant)信息、详细犯罪描述(detail)以及原始司法文件(judgment)等。个人信息依据隐私法规进行了部分匿名化处理。
  2. 时空分布特征:通过构建图表分析数据集的时空分布发现,2 月的街道和社区犯罪数量最少,这可能与春节通常在 2 月,人们出行和社交模式变化有关;每天的 9:00、12:00、15:00 和 20:00 犯罪率相对较高,可能是因为许多案件报告中时间描述模糊,常用 “上午”“下午” 等表述;凌晨 5:00 - 6:00 犯罪活动最少。从年份上看,数据主要集中在 2013 - 2019 年,这既受官方网站限制和在线判决文件可获取性下降影响,也与电子支付系统普及,减少了现金携带行为,进而影响某些犯罪类型有关。在空间分布上,犯罪事件集中在人口密集区域,且数据集覆盖中国大陆几乎所有地区,是目前中国关于街道和社区犯罪时空分布质量最高的公开数据集。
  3. 犯罪与社会经济相关性:研究人员选取 2016 年统计年鉴数据进行城市层面的相关性分析,挑选了平均年人口、人均地区生产总值、职工平均工资、年末城镇登记失业人数、第三产业就业人数和第一产业就业人数这 6 个社会经济相关指标。分析结果显示,犯罪数量与城市人口规模、登记失业人数呈强正相关;与经济发展(人均 GDP)和平均工资的关系呈倒 U 形;与第三产业劳动力的相关性则呈正 U 形。

综上所述,这项研究成功构建了中国街道和社区犯罪的大规模时空数据集,揭示了犯罪的时空分布特征及其与社会经济因素的关系。该研究成果不仅为犯罪学、社会学、地理学等多学科研究提供了宝贵的数据资源,也为政府部门制定更科学有效的治安管理政策、优化警力资源配置提供了有力依据,推动了犯罪研究基础设施的发展,对发展中国家的犯罪研究具有重要的示范和借鉴意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号