基于全尺度特征融合与余弦对比学习的无监督红外图像着色对抗网络研究

【字体: 时间:2025年06月20日 来源:Neurocomputing 5.5

编辑推荐:

  针对红外图像因缺乏色彩纹理导致识别性能受限的问题,研究人员提出CCLGAN框架,通过改进UNet架构(引入全尺度跳跃连接和Mamba模块的3D注意力机制)和设计余弦对比损失函数,实现了无监督跨域红外图像着色。该方法在KAIST和FLIR数据集上显著提升着色质量,为军事安防、自动驾驶等领域的红外图像应用提供新思路。

  

红外图像凭借其不受光照和雾霾影响的特性,在安防监控、自动驾驶等领域广泛应用,但单调的灰度特征限制了其在图像识别中的表现。尽管现有方法尝试通过深度学习实现红外图像着色,仍面临纹理失真、细节模糊等挑战。为此,南京大学的研究团队在《Neurocomputing》发表研究,提出CCLGAN框架,通过融合全尺度特征与余弦对比学习,突破无监督红外着色的技术瓶颈。

关键技术包括:1)改进UNet生成器(VSM-UNet),集成Mamba模块的3D注意力机制捕捉长程依赖;2)设计基于余弦距离的对比损失函数,优化特征空间判别性;3)采用KAIST和FLIR数据集的日间红外-可见光图像进行模型训练与验证。

现有着色方法
传统方法依赖人工干预或固定映射规则,而深度学习方法中,CNN易产生语义混淆,GAN(如CycleGAN)受限于循环一致性假设。对比学习方案(如CUT)存在模式崩溃风险,DCLGAN双域训练效率低下。

研究方法
生成器采用多尺度跳跃连接融合浅层细节与深层语义,Mamba模块通过线性复杂度建模全局上下文。判别器使用PatchGAN结构,余弦对比损失将特征投影至角度空间,通过L-Softmax最大化类间差异。

数据集
KAIST数据集提供9.5万组校准红外-可见光图像对,FLIR数据集包含复杂交通场景,重点选用日间数据以匹配人类视觉感知需求。

结论
CCLGAN在无监督条件下实现红外图像的语义级着色,生成结果在结构保真度和色彩自然度上优于现有方案。Mamba模块的引入使模型参数量减少21%,推理速度提升1.7倍。该技术为夜间监控、医疗诊断等场景提供高效解决方案,相关代码已开源。

(注:研究细节均源自原文,技术术语如VSM-UNet(视觉状态空间UNet)、PatchNCE(基于图像块的噪声对比估计)等均保留原始表述,实验数据引用自论文图表但未标注具体序号)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号