
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合街景与遥感影像多模态特征的城市功能区智能识别方法研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:International Journal of Applied Earth Observation and Geoinformation 7.6
编辑推荐:
为解决传统城市功能区(UFZ)识别方法忽略街景细节、难以捕捉复杂空间关系的问题,研究人员提出了一种融合遥感影像(RSI)、兴趣点(POI)和街景图像(SVI)的多模态学习方法。通过提取街景视觉-文本特征并引入KAN网络进行特征融合,在武汉、长沙和南昌的实验中取得91.80%的总体准确率(OA),为城市规划管理提供了更全面的技术支撑。
随着城市化进程加速,精准识别城市功能区(Urban Functional Zones, UFZ)成为优化城市管理的关键。传统方法主要依赖遥感影像(RSI)和兴趣点(POI)数据,虽能获取宏观地表特征和设施分布,却难以捕捉街景视角下的社会经济活动细节,导致对商业区、混合功能区等复杂场景识别精度不足。这一瓶颈制约了智慧城市建设的深入推进,亟需融合多源数据的新方法突破现有技术局限。
针对这一挑战,国内研究团队在《International Journal of Applied Earth Observation and Geoinformation》发表创新成果,提出融合街景-遥感多模态特征的UFZ智能识别框架。该研究通过三大技术路径实现突破:首先采用图像描述生成技术从街景图像提取文本特征,结合视觉词袋模型构建双重表征;其次利用Kolmogorov-Arnold Network(KAN)替代传统MLP,通过可学习的样条函数捕捉非线性特征;最后整合POI空间密度与遥感影像特征,在武汉等长江中游城市群构建15,226个道路网络分割的样本集。
研究结果显示,多模态融合模型性能显著提升。在"2.1 遥感影像分支"中,ResNeXt网络提取的宏观特征与224×224像素标准化处理,为系统奠定视觉基础;"2.2 POI分支"通过KANLinear模块将23类POI密度转化为128维特征向量,其创新的?(x)=ωbb(x)+ωsspline(x)激活函数较传统方法提升3.15%准确率;"2.3 街景图像分支"最具创新性,通过Sentence-BERT模型生成的768维文本嵌入与Graph2Vec构建的场景图嵌入,首次实现"商铺密集度"、"行人活动"等社会经济属性的量化表征。
实验验证部分("3. 实验结果")揭示关键发现:在四组对照实验中,全模态模型的OA达91.80%,较单遥感模型提升1.08%。特别在商业区识别中,融合街景文本特征的模型准确率提升12.6%,证实"商业广告牌"、"玻璃幕墙"等文本描述对功能区判别的增益效果。跨城市测试显示,模型迁移至长沙、南昌时保持78.95%的OA,说明方法具备区域泛化能力。图13展示的典型案例中,某高层建筑群因街景中"单元门禁"、"阳台晾晒"等文本线索被正确识别为居住区,而非仅凭遥感特征误判为商业区。
该研究的突破性体现在三方面:技术上,首次将图像描述生成与KAN网络引入UFZ识别,解决多源异构数据融合难题;方法上,构建的Doc Embedding和Graph Embedding双通道模块,实现社会经济信息的有效提取;应用上,提出的20米街景关联规则与40%面积占比标注策略,为同类研究提供标准化范式。研究团队在讨论中指出,当前图像描述模型对"工业园区"、"文教区"等特定场景的文本生成精度仍需提升,未来可通过领域自适应训练进一步优化。这些发现为数字孪生城市建设提供了新的技术路径,其多模态融合思路也可拓展至城市热岛效应评估、15分钟生活圈规划等衍生领域。
生物通微信公众号
知名企业招聘