HVTC-GAN：基于语义分割的高层视觉任务协同SAR-光学图像转换框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》：HVTC-GAN: A High-level Vision Task Cooperative GAN for SAR-to-Optical translation via Semantic Segmentation

【字体：大中小】 时间：2026年01月05日 来源：IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐：

　　本文推荐一种面向高层视觉任务协同的SAR-光学图像转换新方法HVTC-GAN。针对现有SAR-to-Optical Translation(S2OT)方法过度关注视觉质量而忽视下游任务实用性的问题，研究人员通过将语义分割作为下游任务引入生成对抗网络(GAN)，提出多任务协同训练策略。该方法在WHU-OPT-SAR和YYX-OPT-SAR数据集上验证表明，其生成的伪光学图像在SSIM和PSNR指标上超越基线方法，下游土地覆盖分类任务的mIoU提升超过10%，显著增强了SAR图像在遥感解译中的实用价值。

在遥感技术飞速发展的今天，合成孔径雷达(Synthetic Aperture Radar, SAR)与光学成像技术各自展现出独特优势。SAR作为一种主动微波遥感技术，具备全天候、全天候的工作能力，能够穿透云层和雨雾，在对地观测领域发挥着不可替代的作用。然而，SAR图像存在斑点噪声、几何畸变等问题，其视觉特征不够直观，给非专业人士的判读带来巨大挑战。与之相比，光学图像虽然视觉效果直观，但其成像质量极易受到天气条件的制约。

为了融合两种成像模式的优势，SAR-to-Optical Translation(S2OT)技术应运而生。传统S2OT方法大多将重点放在提升生成图像的视觉质量或像素级相似度指标上，却忽视了一个关键问题：生成的伪光学图像是否真正有利于下游高层视觉任务（如地物分类、目标检测等）的性能提升？这种"为转换而转换"的研究思路，导致现有方法在实际遥感应用中往往表现不佳。

针对这一研究空白，西北工业大学的研究团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了题为"HVTC-GAN: A High-level Vision Task Cooperative GAN for SAR-to-Optical translation via Semantic Segmentation"的研究论文，提出了一种高层视觉任务协同的SAR-to-optical转换框架HVTC-GAN。

该研究的创新之处在于，首次将语义分割作为下游任务深度集成到S2OT过程中，通过多任务协同训练策略，使图像转换过程直接受到高层语义理解的指导。这种任务驱动的设计思路，不仅提升了生成图像的质量，更重要的是确保了转换结果在下游任务中的实用性。

研究人员采用了几项关键技术方法：首先构建了基于CycleGAN的生成器作为SAR-to-optical转换模块的核心；其次引入语义分割损失函数，通过FCN32s和SegNet两种分割架构对生成过程施加目标级约束；此外还设计了SAR分割分支和身份损失分支，分别用于保留原始SAR图像特征和减小伪光学图像与真实光学图像之间的域差异。实验使用了WHU-OPT-SAR和YYX-OPT-SAR两个公开数据集，其中WHU-OPT-SAR包含100对全配准的SAR-光学图像对，空间分辨率为5米；YYX-OPT-SAR则具有亚米级空间分辨率，包含更复杂的场景分布。

SAR-to-Optical图像转换结果

研究表明，HVTC-GAN在视觉质量上显著优于传统方法。特别是在复杂地形特征（如道路、村庄）的重建中，HVTC-GAN能够更好地保持几何结构完整性。如图2所示，对于具有复杂纹理和模糊边缘的挑战性目标，HVTC-GAN生成的伪光学图像在道路和狭窄河道等细节上轮廓最为清晰，最接近真实光学图像。

定量评估结果进一步证实了HVTC-GAN的优越性。在WHU-OPT-SAR数据集上，HVTC-GAN的SSIM达到43.54%，PSNR为22.18dB；在YYX-OPT-SAR数据集上，其FID和KID指标分别为49.80和0.23，显著优于基线方法。值得注意的是，与扩散模型ControlNet相比，HVTC-GAN虽然在视觉细节上稍逊，但在语义一致性方面表现更优，更适合下游任务需求。

下游任务性能

下游语义分割任务的结果更加凸显了HVTC-GAN的实用价值。如图5所示，在大面积水域分割场景中，HVTC-GAN生成的水体边界清晰、伪影最少，与真实标签最为接近。在复杂地形场景中，HVTC-GAN是唯一能够完整分割道路网络的方法，而所有基线模型都无法有效保留道路目标。

定量分析显示，HVTC-GAN在WHU-OPT-SAR数据集上的mIoU达到37.79%，比最佳基线方法高出近10个百分点；在YYX-OPT-SAR数据集上，mIoU进一步提升至82.35%。这一结果揭示了一个重要现象：传统方法生成的伪光学图像虽然视觉上合理，但其分割精度甚至低于直接对SAR图像进行分割的结果，这表明在转换过程中存在严重的语义信息损失。

消融研究

消融实验验证了各模块的贡献。如表4所示，仅使用基础模型（无协同训练）时，mIoU为27.99%；引入协同训练后，mIoU提升至33.14%；当加入两个辅助分支后，性能进一步提升至37.79%。这一结果表明，多任务协同训练和跨域不变性学习机制对提升性能都具有重要意义。

图7的激活热图分析进一步表明，语义分割损失的引入有效增强了模型对类间边界的判别能力。随着分割损失权重的增加，道路/建筑物边缘区域的激活响应明显增强，导致更清晰的对象轮廓。

讨论与结论

HVTC-GAN通过模块级联和参数共享，构建了一个多任务协同训练框架，将下游任务的层次监督信号注入转换模块，同时通过高质量伪光学图像提升下游任务精度，形成闭环优化。与现有方法相比，该框架在计算效率方面也具有优势，单帧转换延迟仅为20.97毫秒，参数数量约200M，在卫星/机载平台等资源受限环境中展现出良好的部署潜力。

然而，研究也指出当前方法存在进一步优化的空间。多任务学习中的任务竞争问题需要更精细的权重分配策略，未来可探索动态任务加权机制和任务冲突缓解技术。此外，更明确的条件调节机制（如条件归一化或特征调制）可能提供对转换过程的更精细控制。

这项研究的重要意义在于，它将S2OT研究从纯粹的视觉合成推向任务驱动的表示学习，为遥感图像解译提供了新思路。通过将高层语义理解与低层图像生成相结合，HVTC-GAN不仅在技术上实现了突破，更重要的是为SAR图像在实际遥感应用中的广泛使用铺平了道路。未来，随着多任务优化技术的进一步发展和自适应机制的引入，这种任务协同的框架有望在更多遥感场景中发挥重要作用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号