用于区域尺度风险评估的可靠建筑库存估算方法：一种基于空间增强Transformer的、以不确定性为导向的框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Reliability Engineering & System Safety》：Reliable building inventory imputation for regional-scale risk assessment: an uncertainty-guided framework using spatially-enhanced Transformers

【字体：大中小】 时间：2026年02月19日 来源：Reliability Engineering & System Safety 11

编辑推荐：

　　区域风险评估中基于深度学习的建筑属性缺失数据填补方法研究。提出不确定性引导的空间增强深度学习框架，通过特征标记化Transformer捕捉空间依赖关系，利用蒙特卡洛滴出量化不确定性，并设计动态损失函数控制伪标签权重，有效抑制误差传播。在旧金山大规模数据集验证中，填补误差显著降低，较基线方法提升近50%，为风险模型提供可靠数据支撑。

宋子豪|江文军|李尚里|张继泽

香港科技大学土木与环境工程系，中国香港

摘要

区域尺度的风险评估需要完整的建筑清单，然而数据缺失是一个普遍存在的问题，这会削弱暴露模型及其下游的风险分析。本研究探讨了如何通过明确建模空间依赖性来推断缺失的建筑属性，同时量化推断过程中的认知不确定性，从而超越确定性点估计的局限性。我们提出了一个新颖的框架，该框架利用空间感知的特征标记转换器来推断缺失值，然后使用蒙特卡洛dropout量化推断不确定性，并通过迭代过程逐步优化估计结果。在旧金山的大规模数据集上，我们提出的方法一致且显著地降低了推断误差，在某些情况下几乎将其减半。这提高了区域城市推断任务的可靠性，使得决策更加稳健和自信。

引言

区域风险评估旨在量化地震、洪水和飓风等自然灾害的潜在影响，是现代城市规划、灾害管理和保险行业的基石[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]。此类评估依赖于基础建筑清单数据集[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]的质量，这些数据集捕获了建筑类型、建造年份、楼层数、使用类别和地理位置等关键信息。这些信息对于脆弱性建模至关重要，但由于数据来自多个来源（例如市政记录、税务评估数据、遥感和现场调查），且缺乏同步性，并可能存在隐私问题，因此这些数据集几乎总是不完整的[25]、[26]、[27]，这成为准确和可信风险分析的重大障碍。如果不加以处理，缺失值可能会偏倚危险损失曲线，最终危及工程师和公共机构从区域风险评估中获得的决策支持。最近的大规模项目强调了完整和准确的建筑清单的重要性。在欧洲层面，欧洲地震风险模型（ESRM20）[28]及其配套的暴露模型[29]为大陆风险评估提供了全面的框架，突出了建筑存量特征描述的关键作用。在全球范围内，全球暴露模型[30]协调了不同地区的建筑清单数据。基于卫星的建筑属性估计的最新进展，如全球人类居住开放建筑属性表（GHS-OBAT）[31]和欧盟数字建筑存量模型（DBSM R2025）[32]，展示了通过遥感和机器学习在大规模上推导建筑属性的能力。尽管取得了这些进展，但数据完整性的基本挑战仍然存在，这促使人们开发出能够处理异构和空间依赖性建筑清单数据的推断方法。

数据推断是一个成熟的领域[33]、[34]、[35]，在主要由传感器数据驱动的领域（如交通、电网和环境监测[36]、[37]、[38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]）中有许多成功应用。然而，这些问题通常涉及具有强时间相关性的相对同质的时间序列数据。我们的挑战从根本上不同。建筑清单代表了高度异构的表格数据，可能是数值、分类和空间特征的复杂、非结构化的混合体，没有内在的顺序[50]、[51]。推断技术的发展经历了几种范式，每种都有其独特的优势和劣势。传统的统计方法，如均值/中位数替换或简单回归[33]，无法捕捉复杂的非线性交互作用。机器学习的出现带来了显著的改进。非参数模型，如最近邻[52]和基于树的集成模型（如MissForest[53]），可以建模复杂的关系。然而，非参数模型在大规模数据集上的可扩展性可能受到限制。基于树的方法提供的预测不确定性度量不可靠，这对于迭代方法持续优化推断是一个关键缺陷[54]。

最近，深度学习和深度生成模型已被用于推断[55]、[56]、[57]，利用它们学习丰富和表达力强的数据表示的能力。生成对抗网络（GANs），特别是像GAIN（生成对抗推断网络）[58]、[59]这样的变体，将推断视为一个游戏，其中生成器试图产生与真实值无法区分的逼真推断值供判别器识别。另一个重要的分支专注于基于自动编码器的架构，如MIDA（使用去噪自动编码器的多重推断）和MIWAE（缺失数据重要性加权自动编码器），它们训练模型从故意损坏的输入中重建干净的数据[60]、[61]。还存在更复杂的混合模型，如DLIN（深度梯形推断网络），它结合了自动编码器的原理和梯形网络架构[62]，以及ForestDiffusion，以适应推断异构表格数据的独特挑战[63]。然而，生成模型通常难以训练[64]、[65]，并且通常会一次性填充所有缺失值，阻止了跨特征的迭代优化。

在现有框架中，链式方程多重推断（MICE）作为一种经过验证且稳健的技术，用于处理这种任意类型的缺失数据[66]。其优势在于其迭代式、逐特征的方法。在每次迭代中，都在完整案例上训练一个预测模型，并将其应用于推断缺失条目。这些推断值（在深度学习文献中通常称为伪标签）随后作为观察值用于后续迭代，随着模型遍历所有特征，逐步优化推断结果。这种迭代优化使MICE能够捕捉复杂的变量间依赖性，而无需明确指定联合分布。虽然MICE框架非常强大，但其实际实现历来受到使用较简单预测模型的限制。一个非常理想的进化是将深度学习的表达能力集成到MICE中，但由于一个关键原因，这种集成尚未得到充分探索：误差传播。简单的集成会迭代使用深度模型的预测（伪标签）来填充下一次迭代的缺失数据。如果没有机制来评估这些伪标签的可靠性，初始预测误差会被反馈到模型中作为真实值，导致灾难性的错误累积，从而破坏数据集[67]、[68]、[69]。

为了将深度学习的表达能力与MICE框架的稳健性结合起来，本文介绍了一个基于不确定性的、空间增强的深度推断框架。我们的方法建立在一种在异构表格数据上表现出色的先进特征标记转换器（FT）Transformer之上。这一强大的基础通过几个针对区域建筑清单挑战定制的新组件得到了增强。首先，我们集成位置编码将原始建筑坐标转换为丰富的高维表示，使模型能够捕捉复杂的地理相关性并减轻空间过度平滑现象。其次，我们引入了一种新的基于不确定性的迭代推断方案，通过蒙特卡洛dropout量化模型生成的伪标签的认知不确定性。最后，这种不确定性估计用于通过专门的损失函数主动控制学习过程。这种机制允许模型在重新训练期间动态降低低置信度伪标签的权重，有效防止了可能困扰简单迭代方法的灾难性错误传播。通过结合这些组件，我们创建了一个既高度表达又异常稳定的模型。这为风险评估应用填补了一个关键空白，在这些应用中，决策具有重大后果，从业者不仅需要知道推断值是什么，还需要知道对其信任程度如何，通过将不确定性量化直接嵌入推断过程中。我们的不确定性估计可以传播到下游风险模型中，使分析师能够识别出由于数据质量限制而具有更高认知风险的建筑或区域。这将推断从一个纯粹的预处理步骤转变为一个具有不确定性意识的决策制定不可或缺的部分。

本研究的主要贡献如下：

•

设计了一种新颖且可扩展的深度学习推断框架。它量化了自己推断的认知不确定性，以指导训练过程，防止误差传播。

•

正弦位置编码捕捉了建筑清单中的细粒度空间关系，克服了常见的过度平滑问题。

•

引入了一种基于不确定性的损失函数，主动过滤不可靠的伪标签，从而在MICE框架内实现更稳健和准确的迭代推断。

•

在旧金山的大规模数据集上的全面验证表明，我们的方法在推断准确性和服务于下游区域风险评估方面显著优于现有最先进技术。

本文的其余部分组织如下。第2节回顾了问题表述和数据集。第3节详细介绍了我们提出的方法。第4节描述了推断实验和结果。第5节展示了在区域风险评估中的潜在应用。最后，第6节总结了本文。

章节片段

问题表述和数据集设置

问题表述。让区域建筑清单由数据集D表示，这是一个大小为n×d的矩阵，其中n是建筑数量，d是属性数量（例如，结构类型、面积）。对于任何建筑i，我们有一个空间坐标向量s_i = (经度, 纬度)，形成一个大小为n×2的空间信息矩阵S。核心挑战来自D中的缺失值。为了形式化这一点，我们引入了一个相同大小的二进制掩码矩阵M。如果

方法论

我们提出的方法基于监督学习的原则。对于每个有缺失条目的属性，都训练一个专用的深度学习模型来预测其值（输出或目标），将整个推断问题分解为一系列复杂性较低的问题。

对于给定的目标属性j，我们定义目标向量为其值，

Y = D_{j}

，并将预测器矩阵定义为所有其他属性，

X = D_{:, ? j}

。使用掩码M

实施细节

预处理。所有数值特征都使用Scikit-Learn中的MinMaxScaler重新缩放到[0,1]区间[87]。这一选择是出于对建筑清单数据上深度学习的几个特定考虑。首先，有界的输入范围已知可以提高神经网络的优化稳定性，确保特征之间的梯度幅度一致。其次，与z分数标准化不同，MinMaxScaler不假设特征遵循高斯分布，

区域风险评估的应用

我们推断的最终衡量标准不仅在于其统计准确性，还在于它能否实现更可靠的风险评估应用。我们的研究区域是旧金山，那里的地震灾害表现出显著的空间变异性，可能导致不同社区之间的结构需求不同。图6展示了周期

T = 1.0 s

时的平均谱加速度（SA）场，说明了本研究中考虑的地面运动强度的空间异质性。

结论

本研究解决了区域建筑清单中数据缺失的问题，这是一个削弱危险风险评估可靠性的问题。虽然像MICE这样的迭代框架在概念上是稳健的，但它们与强大的深度学习模型的集成可能会受到不确定伪标签引起的误差传播的阻碍。为了解决这个问题，我们引入了一个基于不确定性的、空间增强的推断框架。具体来说，所提出的框架集成了最先进的

CRediT作者贡献声明

宋子豪：撰写——原始草稿、可视化、软件、方法论、调查、形式分析、数据管理、概念化。江文军：可视化、软件、调查、数据管理、概念化。李尚里：撰写——审稿与编辑、验证、软件、资源管理、调查、数据管理、概念化。张继泽：撰写——审稿与编辑、验证、监督、项目管理、方法论、调查、资金

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号