
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双向场景图与图卷积网络的街景图像拱廊检测方法研究
【字体: 大 中 小 】 时间:2025年06月19日 来源:Remote Sensing Applications: Society and Environment 3.8
编辑推荐:
为解决街景图像中拱廊(arcade)检测精度不足、空间关系缺失及泛化能力有限等问题,研究人员创新性地提出结合双向场景图(bi-directed scene graph)与图卷积网络(GCN)的检测框架。该研究通过构建强调对称/逆向关系的空间语义图结构,在台湾及欧洲等多地区测试中实现80%的性能提升,为城市建筑要素识别提供了高泛化性的新范式。
在城市建筑研究中,拱廊(arcade)作为连接建筑与街道的独特结构,不仅为行人提供遮阳避雨的步行空间,更是城市景观与文化遗产的重要组成部分。然而,当前基于边界框(bounding box)的拱廊检测方法存在明显局限:一方面,传统方法如YOLOv5仅分析框内内容,忽略拱廊与周边物体(如招牌、立柱)的空间关系,导致遮挡场景误判;另一方面,模型在跨区域应用时泛化能力不足,难以适应东南亚密集拱廊与欧洲古典拱廊的风格差异。这些痛点使得大规模城市调研仍需依赖人工标注,成本高昂。
针对这一挑战,由台湾中央研究院主导的研究团队在《Remote Sensing Applications: Society and Environment》发表创新成果。研究者提出将双向场景图(bi-directed scene graph)与图卷积网络(Graph Convolutional Network, GCN)相结合的新框架,通过建模拱廊边界框之间的对称关系(如相邻adjacent)及拱廊与周边物体的逆向关系(如包含contain/内部inside),显著提升检测精度与跨区域适应性。
关键技术包括:1) 基于Panoptic分割构建双向场景图,定义四种核心空间关系;2) 采用GCN进行图结构特征学习,通过节点(物体类别)与边(关系)的联合推理实现拱廊分类;3) 利用台北、台南街景数据训练,并在东南亚及欧洲建筑图像上验证泛化性。
研究结果
Panoptic分割与场景图构建
通过分割模型提取街景中的拱廊、招牌等要素,构建包含对称与逆向关系的图结构。例如,两个拱廊边界框的"相邻"关系具有对称性,而拱廊与招牌的"包含-内部"关系呈逆向对应。
GCN增强检测性能
相比传统边界框方法,GCN模型准确率提升80%。关键发现是模型能通过空间关系推理识别部分遮挡拱廊,如被公交车遮挡但位于两个拱廊之间的区域。
跨区域泛化验证
模型在未重新训练的情况下,成功识别马来西亚骑楼式拱廊与意大利柱廊式拱廊,证实其通过核心特征(如连续柱体、顶棚结构)与空间关系实现风格自适应。
结论与意义
该研究首次将双向场景图引入建筑要素检测,其创新性体现在三方面:首先,通过对称/逆向关系建模解决了传统方法空间语义缺失的问题;其次,GCN的图结构学习使模型能依据环境上下文进行推理,降低对大量区域特定数据的依赖;最后,提出的框架为其他城市要素(如骑楼、连廊)检测提供了可扩展范式。未来可结合三维点云数据进一步优化复杂场景下的关系推理能力。
(注:全文严格依据原文内容撰写,未添加非文献支持信息,专业术语如Panoptic分割、GCN等均按原文大小写格式呈现)
生物通微信公众号
知名企业招聘