
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于遥感大数据与Transformer深度学习模型的高精度人口估算研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Remote Sensing Applications: Society and Environment 3.8
编辑推荐:
针对传统人口估算方法时空分辨率低、模型可解释性差的问题,研究人员创新性地结合Sentinel 2遥感影像与城市形态特征(BH/SVF/BS/PS),首次将Transformer模型引入人口估算领域,通过SHAP工具解析特征贡献度。结果表明Transformer模型较Random Forest和ResNet 50更擅长从卫星影像中提取全局语义特征,为AI在社会科学中的应用提供了范式。
人口分布精准感知是实现可持续发展目标的核心挑战。尽管全球已开发GPW、WorldPop等网格化人口产品,但传统方法受限于行政边界统计、十年一度的人口普查数据,难以捕捉城市内部动态。更棘手的是,现有模型过度依赖城市形态特征(如建筑高度BH、天空可视因子SVF),却无法解释这些特征如何影响预测结果——这正是中国科学院研究人员在《Remote Sensing Applications: Society and Environment》发表的研究要突破的瓶颈。
研究团队创造性地将自然语言处理领域的Transformer模型引入人口估算。这种基于自注意力机制(self-attention)的架构能像解构句子一样分析卫星影像像素间的全局关联,相比局限于局部感知的卷积神经网络(CNN)和依赖人工特征工程的Random Forest具有先天优势。为验证这一假设,团队选取北京、上海等中国超大城市,整合10米分辨率的Sentinel 2多光谱影像与三维建筑数据,首次采用博弈论解释工具SHAP量化不同模型的特征响应机制。
关键技术方法
研究通过Google Earth Engine处理时序遥感数据生成复合影像,提取建筑表面(BS)、透水表面(PS)等城市形态指标。构建包含Random Forest、ResNet 50和Transformer的对比实验框架,采用500m×500m网格单元进行训练。利用SHAP值分析和排列特征重要性(permutation importance)评估模型可解释性,最终融合CNN局部特征提取与Transformer全局感知能力优化预测精度。
研究结果
模型性能对比
Random Forest严重依赖人工提取的SVF等形态特征(贡献度达42%),而Transformer直接从卫星影像中学习到人口分布语义模式,在测试集上RMSE降低31%。ResNet 50虽能捕捉纹理特征,但受限于卷积核的局部感受野。
特征响应机制
SHAP分析显示:Transformer对近红外波段(Band 8)和建筑体积的交叉特征敏感,表明其能自主发现植被覆盖与人口密度的非线性关系;而Random Forest过度关注单一形态指标,导致在城中村等异质区域预测偏差显著。
空间尺度适应性
在1km2网格单元上,Transformer的R2达到0.89,较基准模型提升0.15。尤其在高密度城区,其通过自注意力机制识别出高层建筑群与人口聚集的跨区块关联,而CNN仅能捕捉窗框级别的局部模式。
结论与意义
该研究首次证实Transformer模型在人口估算中的双重优势:一方面通过自注意力机制实现像素级全局建模,突破传统地理加权回归(GWR)的空间局限性;另一方面借助SHAP工具揭示深度学习黑箱的决策逻辑,发现模型会自主学习到夜间灯光数据未能反映的隐蔽居住区特征。这项成果不仅为GHS-POP等人口产品提供精度提升新路径,更开创了AI可解释性研究在社会科学中的应用范式——正如通讯作者Lei Ma强调的:"当Transformer能像人类一样‘理解’卫星影像中的学校操场与人口密度关系时,我们才真正迈入空间智能时代。"
研究也存在一定局限:当前模型在城乡过渡带的预测波动仍较大,未来需融合社交媒体等动态数据。但无论如何,这项工作为联合国SDG 11(可持续城市)提供了革命性的技术支撑,其方法论框架可扩展至碳排放估算、公共卫生资源配置等跨学科领域。
生物通微信公众号
知名企业招聘