加州集中式动物饲养操作(CAFOs)的高精度地理空间数据集构建:计算机视觉与人工验证融合的实证研究

《Scientific Data》:A Comprehensive Dataset of Factory Farms in California Compiled Using Computer Vision and Human Validation

【字体: 时间:2025年11月20日 来源:Scientific Data 6.9

编辑推荐:

  针对加州集中式动物饲养操作(CAFOs)监管数据缺失、位置信息不准确等问题,斯坦福大学团队通过计算机视觉(YOLOv3模型)分析卫星影像,结合多轮人工验证,构建了涵盖2121个设施的近全普查数据集Cal-FF。该数据集捕获了全州98%(95% CI [82%, 98%])的CAFOs,发现222个未在监管记录中登记的设施,并补充了设施建造时间、动物类型、排污许可等丰富元数据。研究为环境暴露评估、政策效应分析和公共卫生研究提供了高精度空间数据支撑,发表于《Scientific Data》。

  
集中式动物饲养操作(Concentrated Animal Feeding Operations, CAFOs)作为现代畜牧业的核心模式,在高效生产动物产品的同时,也带来了严峻的环境与健康挑战。大量动物粪便的集中排放导致氨、磷等污染物渗入水体,畜牧业更是美国人为甲烷排放的主要来源。然而,想要精准评估CAFOs对周边社区的环境影响与健康风险,研究者们首先面临一个基础性难题:连这些设施的确切位置、数量与特征都难以摸清。政府监管记录中存在大量信息缺失、坐标错误或重复登记问题,例如加州官方记录的3761个排污许可中,近四分之一未报告饲养数量,数百个许可地址重复或仅标注“加州”。数据质量的参差不齐严重制约了相关政策的制定与效果评估。
为解决这一数据瓶颈,斯坦福大学监管、评估与治理实验室(Regulation, Evaluation, and Governance Lab)联合多所高校与研究机构,在《Scientific Data》上发表了题为“A Comprehensive Dataset of Factory Farms in California Compiled Using Computer Vision and Human Validation”的研究论文。该研究创新性地融合计算机视觉与人工验证,构建了迄今最全面的加州CAFOs地理空间数据集——Cal-FF,不仅显著提升了设施识别的准确性与完整性,更丰富了每个设施的时空与属性信息,为环境暴露科学、政策评估与公共卫生研究提供了坚实的数据基础。
研究团队采用“模型检测-人工验证-元数据标注”的递进流程。首先,基于YOLOv3架构训练计算机视觉模型,利用来自美国中西部及加州已知CAFO位置的8479个设施、57236个建筑边界框进行训练,进而对加州2016–2018年国家农业影像计划(NAIP)的49.6万张卫星影像进行推理,检测潜在CAFO建筑。为降低误报,研究屏蔽了人口普查划定的城市区域(占州面积5.08%),并针对模型置信度≥0.5的影像、含许可坐标的影像及邻近已确认设施的影像进行全量人工核验。标注人员依据视觉特征(如废水 lagoon、通风口、饲料存储设施)判定CAFO,并通过Google地图、街景辅助验证,科恩卡帕值为0.73,显示较高标注一致性。
关键步骤还包括设施聚类与元数据标注。研究将空间邻近(如建筑间距<400米且业主名称相似)或同属一地块的建筑聚合为单一设施,最终将24818个建筑归并为2121个设施。每个设施进一步标注动物类型(基于许可记录或视觉启发式规则,如宽棚为牛/猪、窄棚为家禽)、建造与废弃时间范围(通过Google Earth历史影像回溯)、以及排污许可匹配(分为“最佳匹配”——许可地址与设施距离<200米且无歧义;“扩展匹配”——距离<1公里)。此外,通过分层抽样未标注影像,估计数据集的覆盖率达98%(95% CI [82%, 98%])。
数据完整性验证
通过三阶段人工核验(建筑标注、建造时间判定、动物类型识别)严格控制假阳性,仅保留三方均认可为CAFO的设施。同时,对模型低置信度及无检测影像进行分层抽样,基于Waller等提出的加权比例估计方法,计算未标注区域中遗漏设施的上限,结合设施与影像数量比例(1:1.44),得出数据集覆盖全州98%CAFOs的结论。结果显示,初始标注仅覆盖全州农村面积的4.30%,却捕获99.737%的阳性影像,证实方法的高效性。
设施特征与监管差异
Cal-FF收录的2121个设施集中分布于加州中央山谷,如图1所示,图拉雷县(356个)、默塞德县(313个)设施数量居前。与监管记录对比,揭示出显著差异:45.0%的设施无法高置信匹配许可(即无“最佳匹配”),7.4%(157个)设施周边1公里内无任何许可记录,表明存在大量未登记或许可信息滞后的运营场。此外,官方许可数据中20%未报告动物数量,位置信息错误率高(仅30%许可坐标直接匹配设施),凸显行政数据的局限性。
时空动态与动物类型分析
通过历史影像追溯,82.8%的设施存在于全部可获取影像时段内(最早至1990年代),显示CAFOs运营的长期稳定性。研究记录了208个建造事件与162个废弃事件,如图5所示,建造时间范围因早期影像覆盖不足而存在较大不确定性。动物类型标注显示,459个设施通过许可确认为 cattle(牛类),其余通过视觉特征区分 dairy(乳牛)、poultry(家禽)等,但21.8%的设施因特征模糊标记为“未知”。户外饲养在加州较为普遍,增加了通过建筑规模估算动物数量的难度。
数据记录与可访问性
数据集以CSV与GeoJSON双格式发布,后者包含建筑多边形、地块信息、许可匹配列表等丰富字段。如图6示例,GeoJSON支持复杂空间分析,如建筑足迹面积计算、设施与人口统计区(Census tract)关联等。数据公开于Hugging Face平台,配套代码开源,支持重现性与后续研究。
结论与意义
Cal-FF数据集的构建,突破了传统依赖行政记录的CAFOs测绘瓶颈,通过计算机视觉与人工验证的协同,实现了对加州CAFOs的近全普查。其核心价值在于:第一,提升了设施定位的精确度,以建筑多边形替代模糊的点坐标,助力暴露评估;第二,通过建造时间、动物类型等元数据,支持时空动态与异质性分析,为因果推断研究奠定基础;第三,揭示了监管数据的高误差率,警示单纯依赖许可记录可能引入严重混淆。未来,该数据集可链接污染监测、气象与健康数据,深化CAFOs对环境正义、社区健康的影响研究。方法学亦可推广至其他地区,推动全球畜牧业环境监管的精准化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号