探秘撒哈拉以南非洲家庭调查数据质量的区域差异:为精准决策 “校准” 数据罗盘

《Nature Communications》:

【字体: 时间:2025年04月23日 来源:Nature Communications

编辑推荐:

  在撒哈拉以南非洲,家庭调查数据对解决健康与发展问题至关重要。研究人员针对 35 个国家,探究家庭调查数据质量的国内差异。结果显示数据质量在地区和地方层面差异显著,偏远地区更差。该研究为改善数据质量及决策提供依据。

  在全球发展的大棋盘上,撒哈拉以南非洲地区始终是各方关注的焦点。这里面临着诸多健康和发展挑战,从疾病预防控制到资源合理分配,每一项决策都需要精准的数据支撑。然而,现实却给这场发展之旅设置了重重障碍。在许多低收入国家,有关年龄、生育、死亡、健康、财富、教育和营养等方面的数据长期匮乏且不可靠,这使得科学家和政策制定者们在制定发展策略时常常 “摸着石头过河”。
多数非洲国家由于缺乏可靠的人口普查数据、公共卫生信息以及完善的出生登记系统,只能将获取公民福祉信息的重任寄托于多用途家庭调查。其中,人口与健康调查(Demographic and Health Surveys,DHS)、多指标类集调查(Multiple Indicator Cluster Surveys,MICS)和生活标准测量调查(Living Standards Measurement Surveys,LSMS)是最常用的数据来源,尤其是 DHS 数据,自 2010 年以来已在约 6000 篇出版物中被使用。

随着研究和政策制定对数据精细化程度的要求越来越高,人们对小区域估计的需求也日益增长。例如,世界卫生组织(WHO)常利用疟疾地图项目(Malaria Atlas Project,MAP)的估计数据,该项目正是基于地理编码的家庭调查数据构建疟疾流行率模型。然而,以往学者和从业者通常假定家庭调查数据质量在国内是均匀的,但这种数据质量在国家内部的差异从未在高空间分辨率下得到深入研究。这种假定可能导致决策失误,使得偏远地区的弱势群体无法获得足够的服务和资源。

为了填补这一研究空白,来自中欧大学(Central European University)、南安普顿大学(University of Southampton)等多个机构的研究人员展开了深入研究。他们的研究成果发表在《Nature Communications》上,为我们揭示了撒哈拉以南非洲家庭调查数据质量的真实面貌。

研究人员主要运用了地理信息系统(GIS)技术和贝叶斯地统计模型。他们收集了 35 个非洲国家公开可用的地理编码 DHS 数据,针对 2006 - 2022 年的调查进行分析。在数据处理过程中,对于部分缺少地理信息的数据,采用基于人口密度栅格的采样和聚类方法进行位置估算。同时,构建了包含人口密度、疟疾发病率、地形崎岖度、夜光强度和定居点数据等在内的地理空间协变量。通过这些协变量和贝叶斯地统计模型,研究人员对三个常用的数据质量指标(“不完整年龄(Incomplete age)”、“年龄堆积(Age heaping)” 和 “标记身高 - 年龄 Z 评分(Flagged HAZ)”)进行建模预测,得到 5×5 km 分辨率的估计结果,并进一步聚合到地区和国家层面。

研究结果


  1. 数据质量的国内差异:研究发现,在 35 个非洲国家中,数据质量在 5×5 km 网格单元和地区层面都存在显著差异。以尼日利亚的年龄堆积指标为例,全国平均水平为 39.8%,但不同地区差异巨大,丹穆萨区(Danmusa district)高达 62.1%,而拉各斯州(Lagos State)的阿杰格(Agege)仅为 25.4%。这种差异远远超过了随机因素导致的差异,而且在数据质量平均水平较低的国家,国内差异更为明显。此外,三个数据质量指标之间的相关性较弱至中等,表明不同类型数据在收集过程中面临的挑战各不相同。
  2. 偏远地区数据质量下降:结合原始 DHS 数据中调查地点的误差发生率和与最近定居点的距离,研究发现随着与能发射数字编号(Digital Number,DN)15 夜光的定居点距离增加,数据质量普遍下降。这种现象在西非地区尤为明显,而在中非和南非相对较好。年龄堆积和女性不完整年龄记录受影响较大,而标记身高 - 年龄 Z 评分受影响相对较小。例如,在多哥,距离定居点 50 km 处,“不完整年龄” 的估计比例为 20.4%,到 200 km 处则增至 35.3%;在肯尼亚,“年龄堆积” 的比例从距离最近城镇或夜光发射区域 50 km 处的 26.2%,增加到 200 km 处的 27.9%。
  3. 数据误差与抽样不确定性:研究人员将数据质量估计(如 “不完整年龄” 和 “标记身高 - 年龄 Z 评分”)与相关公共卫生指标(如 “避孕措施使用” 和 “发育迟缓儿童”)的预测估计标准差进行配对分析。结果发现,一些地区同时面临高数据误差和高抽样不确定性的挑战,如纳米比亚、尼日利亚等部分地区;而在国家层面,马达加斯加和尼日尔的数据误差与抽样不确定性问题较为突出。不过,也有一些地区数据质量较高,如安哥拉的部分地区和塞内加尔的一些周边地区。

研究结论与讨论


这项研究首次在 5×5 km 空间分辨率下对撒哈拉以南非洲 35 个国家的家庭调查数据质量进行量化分析,具有重要意义。它揭示了以往跨国或跨调查研究中被掩盖的数据质量区域差异,让人们认识到偏远农村地区的数据质量问题更为严重。这一发现对于依赖家庭调查数据进行研究和决策的人员来说至关重要,他们可以根据这些结果,在数据质量较差的地区采用额外工具和数据,提高研究的准确性和决策的科学性。同时,也为 DHS 项目等改善数据质量提供了方向,例如为当地调查团队提供更好的培训和更多资源,以减少数据误差。

研究人员还指出,虽然 DHS 项目被视为定期家庭调查的黄金标准,但在精细的地方层面,系统测量误差的空间维度一直未被了解。许多数据使用者由于缺乏专业知识,往往忽视数据质量问题。而这项研究的结果可以提高数据使用者对数据质量问题的认识,促使他们在分析来自偏远地区的数据时,充分考虑数据质量的影响。

不过,该研究也存在一定局限性。例如,DHS 调查地点之间的空间数据差距可能会给估计带来不确定性,调查地点为保护数据隐私而进行的随机位移也会增加空间不确定性。此外,武装冲突、人口流动和政治不稳定等因素也会影响调查数据的可靠性。未来的研究需要进一步探讨这些因素对数据质量的影响,并寻找更有效的方法来解决数据质量问题。

总体而言,这项研究为撒哈拉以南非洲地区的健康和发展研究提供了宝贵的数据支持和决策依据,为后续研究指明了方向,有望推动该地区在数据质量改善和发展决策优化方面取得新的进展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号