从足迹到功能:全球语义化建筑足迹数据集OpenBuildingMap的构建与验证

《Scientific Data》:From Footprints to Functions: A Comprehensive Global and Semantic Building Footprint Dataset

【字体: 时间:2025年10月29日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决全球建筑数据可及性不足的问题,研究人员开展了OpenBuildingMap主题研究,通过融合OpenStreetMap、Google Open Buildings和Microsoft Global ML Building Footprints三大开源数据集,构建了包含27亿建筑足迹的全球语义化数据集。该数据集采用全球地震模型(GEM)建筑分类法,包含占地面积、高度、楼层数和功能类型等属性,并通过KL散度和地籍数据验证表明其可靠性,为灾害风险评估、城市规划等提供关键数据支撑。

  
当我们试图了解人类居住模式的奥秘,或是进行危机管理、城市规划、能源效率评估乃至多灾害风险分析时,建筑无疑扮演着核心角色。然而,令人惊讶的是,尽管建筑信息如此关键,我们至今仍不清楚地球上所有建筑的位置,更不用说它们的类型和尺寸了。官方建筑登记册可能是最佳信息来源,但往往稀缺且不总是最新。大多数国家没有开放的建筑登记册,原因可能是缺乏政治意愿或财政资源。即使在经济发达的国家,获取建筑信息也可能非常复杂。例如,德国地籍册的责任在于各个联邦州,导致每个州都有独立的数据集,这可能会造成数据集之间的不兼容,无论是格式还是许可方面。
近年来,人工智能(AI)的进步为建筑测绘带来了新的可能性。AI技术使得从卫星图像中自动提取建筑足迹成为现实,并产生了全球尺度的数据集。然而,这些AI衍生的数据集通常只包含建筑足迹,没有额外的属性信息,其质量通常也不如OpenStreetMap。另一方面,OpenStreetMap作为一个众包地理数据集,包含了丰富的语义信息,但其信息密度在西方国家最高,无法保证在任意区域都是完整的,并且其非结构化的性质可能导致不一致性。
为了克服单独使用OpenStreetMap或AI衍生数据集的缺点,Laurens J.N. Oostwegel等人开发了OpenBuildingMap数据集。这项研究旨在创建一个建筑足迹数据集,最大限度地减少使用OpenStreetMap或AI衍生数据集的劣势。对于数据使用者来说,OpenStreetMap可能因缺乏清晰的结构和本体论而难以使用。AI衍生数据集则因其有限的语义信息和数据质量而受到影响。OpenBuildingMap将OpenStreetMap数据集的丰富性与AI数据集的扩展覆盖范围相结合。它融合了多个建筑足迹数据集,因此是迄今为止最完整的足迹数据集,并优先采用输入数据集中的最高质量的建筑几何图形。它尽可能包含建筑几何形状、使用面积、高度(米)、层数和建筑功能类型,并以结构化的方式提供这些信息,所有语义数据都有清晰的命名,并以易于访问的数据格式开放提供。这项研究成果已发表在《Scientific Data》期刊上。
为构建OpenBuildingMap数据集,研究人员主要采用了三项关键技术方法:首先,基于数据质量优先级(OpenStreetMap > Google > Microsoft)对三大开源建筑足迹数据集进行融合,避免重复;其次,利用建筑自身属性、OpenStreetMap中的兴趣点(POI)和土地利用信息推导建筑功能类型(occupancy type),结合数据集中的高度属性或全球人类住区特征层(GHSL)估算建筑层高和使用面积(floorspace);最后,采用基于GHSL的完整性评估、城市区域功能类型分布的Kullback-Leibler(KL)散度分析,以及斯洛文尼亚和希腊地籍数据对比验证数据集可靠性。
数据记录
OpenBuildingMap数据集最终包含近27亿个经过过滤和融合的建筑。数据集包含四个主要属性:建筑高度和/或层数(height)、建筑功能类型(occupancy)、建筑使用面积(floorspace)和四叉树ID(quadkey)。建筑高度属性根据全球地震模型(GEM)的建筑分类法进行描述,包括精确层数(H)、近似层数(HAPP)、层数范围(HBET)或米制高度(HHT)。功能类型分为居住(RES)、商业与公共(COM)、混合用途(MIX)、工业(IND)、农业(AGR)、集会(ASS)、政府(GOV)和教育(EDU)等八类。使用面积估算为建筑占地面积乘以层数的70%,且仅在层数确切已知时计算。四叉树ID基于建筑 centroid 的坐标计算,缩放级别18的四叉键在赤道附近大小约为150x150米。
技术验证
与GHSL数据集对比的完整性
通过将OpenBuildingMap的建筑足迹与GHSL数据集中的建成区进行对比,评估了数据集的完整性。分析显示,数据集在不同国家和区域内的完整性存在差异。欧洲大部分地区、拉丁美洲和加勒比地区完整性较高,而中国、韩国、台湾等地区由于OpenStreetMap数据稀少且Google和Microsoft数据集未覆盖,成为主要的空白点。与美国、日本、摩洛哥等国家城市区域覆盖度较高不同,澳大利亚和撒哈拉沙漠等地区则呈现出农村区域覆盖更佳的模式。总体而言,OpenBuildingMap有效缓解了OpenStreetMap数据集在人类发展指数(HDI)较高区域覆盖度更好的偏差。
功能类型分布的评估
由于缺乏验证单个建筑功能类型的参考数据,研究采用Kullback-Leibler(KL)散度来量化观察到的城市建筑功能类型分布与基于六个参考城市(阿姆斯特丹、芝加哥、维也纳、雅温得、新加坡、帕拉马里博)计算的期望分布之间的差异。对全球16个城市的分析显示,伦敦(0.11)、洛杉矶(0.22)、马尼拉(0.27)等城市的KL散度较低,表明其功能类型分布更接近期望分布,而东京(1.38)、金奈(1.21)等城市散度较高。虽然柏林等数据质量预期较高的城市KL散度并非最低,但KL散度与未知功能类型的百分比结合,仍能捕捉到功能类型数据质量的一般趋势。
基于斯洛文尼亚和希腊地籍数据的验证
通过斯洛文尼亚和希腊的地籍数据对OpenBuildingMap数据集的建筑高度和功能类型进行了详细验证。在斯洛文尼亚,将地籍中的建筑层数和高度与OpenBuildingMap的相应属性进行比较。对于精确层数(H/HBEX标签),43%的建筑与地籍数据完全一致,83%的建筑误差不超过1层。对于层数范围(HBET标签),81%的建筑被正确识别,98%的建筑地籍层数不超过范围上限1层。对于米制高度(HHT标签),48%的建筑与地籍数据差异在1米以内,91%的建筑差异在3米以内。考虑到从卫星图像难以探测地下室等限制,OpenBuildingMap的高度属性与斯洛文尼亚数据集非常接近。
在希腊的案例中,由于OpenBuildingMap中的大部分建筑足迹来自Microsoft数据集而非OpenStreetMap,数据质量预期略差。验证结果表明,部分误分类源于定义差异而非分类错误。例如,被OpenBuildingMap标记为农业用途的建筑在地籍中可能为住宅,这是因为建筑所在区域的土地利用被标记为农业用途。同样,被标记为混合用途(MIX)的建筑在地籍中可能被归类为住宅,因为希腊地籍对住宅建筑的定义(>80%住宅)可能包含混合用途建筑。尽管存在这些定义差异,OpenBuildingMap数据集在覆盖范围和功能类型分类数量上均优于地籍数据,证明了其价值。
结论与讨论
本研究成功构建了OpenBuildingMap,一个全面、全球尺度的语义化建筑足迹数据集。该数据集通过融合OpenStreetMap、Google Open Buildings和Microsoft Global ML Building Footprints,包含了27亿个建筑足迹,并赋予其建筑高度、层数、使用面积和功能类型等语义属性,遵循全球地震模型(GEM)的建筑分类法。验证结果表明,尽管存在一些因定义差异或数据限制导致的误分类,但数据集整体上在全球尺度上提供了可靠且有价值的建筑信息。
OpenBuildingMap的意义在于它首次以统一、结构化的方式整合了多源建筑数据,显著提升了全球建筑信息的可及性和可用性。该数据集可广泛应用于灾害管理(如风险评估、疏散规划、灾后损失评估)、城市规划(城市建模、评估城市增长模式)、可持续性分析(住房供暖系统、屋顶太阳能电池板可行性)以及人口分布建模等领域。建筑功能类型和建筑尺寸信息可用于估算建筑在一天中的占用时间和内部人员数量。
数据集的局限性在于其质量和属性完整性存在区域差异,且建筑足迹几何图形本身未经过质量测试。未来,随着OpenStreetMap数据集的不断增长,OpenBuildingMap功能类型分类的准确性将得到改善。同样,来自对地观测的新的、更详细的数据集可以轻松集成到OpenBuildingMap中,进一步增强数据集。通过整合城市形态学或建筑几何形状数据,并利用人工智能算法进行处理,可以进一步改进功能类型的估算。机器学习可以基于经过实地验证的数据或OpenBuildingMap中已知功能类型的建筑进行训练,从而优化建筑高度估算和功能类型分类。
总之,OpenBuildingMap为理解和分析全球建筑环境提供了前所未有的详细数据资源,标志着在全球语义化建筑信息获取方面迈出了重要一步,将为多学科研究和实际应用开辟新的途径。数据集已通过GFZ Data Services开放获取,并附有每个图块的完整性指数和属性完整性等质量指标,便于用户评估数据的适用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号