面向光学-DSM图像分割的细节增强双域融合网络(D2FNet)研究
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:Detail-Enhancement Dual-Domain Fusion Network for Optical-DSM Image Segmentation
【字体:
大
中
小
】
时间:2025年12月16日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
为解决光学与数字表面模型(DSM)多模态图像分割中特征提取不充分、模态差异大、细节信息易丢失等问题,研究人员提出细节增强双域融合网络(D2FNet)。该网络采用双骨干架构(DINOv2-s与ResNet18)分别提取光学与DSM模态特征,通过级联的双域融合块(DFB)和细节增强融合块(DEFB)实现宏观结构与局部细节的多层次融合。实验表明,D2FNet在ISPRS Potsdam和Vaihingen数据集上分别达到86.99%和84.29%的mIoU,参数量降低79.6%,计算成本减少85.6%,为多模态遥感分割提供了高效解决方案。
在遥感图像分析领域,光学图像与数字表面模型(DSM)的协同分割一直是提升地物识别精度的关键路径。光学图像蕴含丰富的色彩、纹理等语义信息,而DSM则提供高程与几何结构特征,二者互补能显著增强对建筑物、植被、道路等目标的判别能力。然而,多模态数据融合面临三大核心挑战:其一,光学与DSM数据存在显著的模态差异,直接拼接或简单相加易导致特征对齐失效;其二,传统卷积神经网络(CNN)难以兼顾局部细节与全局结构建模,尤其对大规模遥感场景中的长距离依赖捕捉不足;其三,现有方法多局限于空间域融合,忽略了频域信息对宏观轮廓与细节特征的解耦潜力。
针对上述问题,发表于《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》的研究提出了一种细节增强双域融合网络(D2FNet)。该网络通过双骨干架构分别利用DINOv2-s的强大语义提取能力和ResNet18的轻量化高程特征提取,构建了级联融合框架。其中,双域融合块(DFB)在空间与频域内通过特征交互融合块(FIFB)实现模态对齐与宏观结构融合;细节增强融合块(DEFB)则借助变感受野卷积(VRFC)模块增强局部细节表达,进一步优化边界与纹理信息。实验表明,D2FNet在公开数据集上以更低的计算成本实现了领先的分割精度。
- 1.双骨干特征提取:分别采用DINOv2-s(基于Transformer)和ResNet18(基于CNN)处理光学与DSM图像,兼顾全局上下文与局部特征;
- 2.频域融合策略:通过离散小波变换(DWT)分解低频(宏观结构)与高频(细节)成分,在频域内完成模态对齐;
- 3.细节增强模块:设计多分支变感受野卷积(VRFC),结合可学习门控机制自适应融合多尺度细节特征;
- 4.级联融合框架:通过DFB和DEFB的串联实现从宏观到细节的多层次信息整合。
双骨干特征提取
D2FNet采用异构骨干网络处理多模态输入。针对光学图像丰富的信息量,选用在大型自然图像数据集上预训练的DINOv2-s,其Transformer架构能有效捕获长程依赖关系;而对DSM数据,则使用轻量级ResNet18聚焦高程与轮廓特征。该设计不仅避免了DSM噪声对光学特征的干扰,还通过参数差异化配置降低了模型复杂度。
双域融合块(DFB)
DFB在空间域与频域并行推进融合。频域分支首先对光学和DSM特征进行三级离散小波变换,提取低频分量(承载宏观结构信息)并输入FIFB模块进行跨模态对齐。FIFB通过层归一化(Layernorm)初步统一特征分布,利用元素级乘法生成融合提示(Prompt),再通过多头注意力机制挖掘模态间隐含关联。空间域分支直接对原始特征应用FIFB,最终通过元素加法整合双域输出,形成初步融合特征。
细节增强融合块(DEFB)
为强化细节表达,DEFB引入变感受野卷积(VRFC)模块。该模块包含五个并行深度可分离卷积分支,分别使用1×1、1×3、3×1、1×5、5×1等不同尺寸与方向的卷积核提取多尺度细节特征。通过全局池化与门控机制自适应加权分支输出,增强对车辆、植被边缘等小目标的细节捕捉。细节增强后的DSM特征与初步融合特征共同输入FIFB进行二次对齐,生成最终融合结果。
分割头与损失函数
网络末端采用轻量级1×1卷积作为分割头,将融合特征映射为类别概率图,并通过双线性插值上采样至原始分辨率。训练使用交叉熵损失函数,通过随机梯度下降(SGD)优化参数,学习率设为0.0001。
在ISPRS Potsdam数据集上,D2FNet在建筑物、低植被、车辆、不透水表面四个类别取得最高准确率(98.23%、90.84%、96.81%、93.32%),整体mIoU达86.99%,优于对比方法FTransUNet(85.52%)等。在Vaihingen数据集上,其mIoU为84.29%,参数量仅36.69M,显著低于FTransUNet(179.42M)。消融实验验证了双骨干、DFB与DEFB的协同作用:单独使用双骨干时mIoU为82.87%,加入DFB后提升至83.72%,引入DEFB进一步增至84.29%。频域融合与VRFC模块分别贡献了宏观结构完整性与细节优化,如可视化结果所示,建筑物边界更连贯,树木纹理更清晰。
D2FNet通过双骨干设计与级联融合框架,有效解决了光学-DSM分割中的模态对齐与细节增强问题。其创新性体现在三方面:首先,利用预训练大模型(DINOv2-s)提升光学特征质量;其次,通过双域融合挖掘频域信息互补性;最后,借助可调感受野卷积动态优化局部细节。尽管当前方法依赖全监督训练且泛化能力有限,但为多模态遥感分割提供了高效、轻量化的解决方案。未来工作可探索零样本学习架构与多模态图神经网络融合,进一步推动技术在跨域应用中的实用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号