基于离散码本先验与交互特征转换的低光照图像增强方法

【字体: 时间:2025年06月03日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  针对低光照图像增强(LLIE)中存在的亮度退化不确定性及纹理/色彩信息丢失问题,Xu Wu团队提出CodeEnhance方法,通过图像-码本映射范式整合语义嵌入模块(SEM)和码本偏移(CS)机制,结合交互式特征转换(IFT)实现可控增强。该方法在LOL等6个基准测试中达到SOTA性能,为复杂光照场景下的图像复原提供新思路。

  

在夜间监控、医学影像和天文观测等领域,低光照图像(Low-Light, LL)普遍存在细节模糊、噪声干扰和色彩失真等问题。传统基于直方图均衡化(Histogram Equalization)和Retinex理论的方法虽能提升亮度,但易导致内容失真;而现有深度学习框架如生成对抗网络(GAN)和图像-图像(Image-to-Image)映射虽表现优异,却面临两大瓶颈:一是真实夜间场景光照复杂度高导致重建不确定性,二是降噪与细节保留难以平衡——过度平滑会丢失纹理,增强过度又引发伪影。这种"亮度-细节-色彩"的三角矛盾,成为制约低光照图像增强(Low-Light Image Enhancement, LLIE)技术落地的关键障碍。

针对这一挑战,深圳大学的研究团队在《Engineering Applications of Artificial Intelligence》发表研究,创新性地将LLIE重构为"图像-码本"(Image-to-Code)学习范式。该方法通过两阶段框架实现:第一阶段采用VQ-GAN在高质量图像(HQ)上预训练码本;第二阶段通过语义嵌入模块(SEM)融合多层次特征,利用码本偏移(CS)机制适配低光照数据分布,最终通过交互式特征转换(IFT)模块实现纹理与色彩的动态优化。核心技术创新在于将传统百万级参数的像素空间映射,压缩至离散码本索引的搜索问题,显著降低模型不确定性。

关键技术方法
研究采用DIV2K和Flickr2K数据集预训练VQ-GAN码本,使用Adam优化器(β1=0.9, β2=0.999, ε=10-8)进行模型训练。主要模块包括:(1)SEM模块通过通道注意力整合语义与底层特征;(2)CS机制通过可学习参数Δ调整码本向量;(3)IFT模块包含纹理特征转换(TFT)和可控感知转换(CPT)两个子模块,分别处理细节增强和色彩校正。实验在LOL、FiveK等6个基准数据集上进行,采用PSNR、SSIM和LPIPS指标评估。

研究结果
低光照图像增强技术现状
分析指出现有方法在复杂光照条件下泛化能力有限,经典算法如Retinex-Net易产生颜色偏差,而基于U-Net的方法在噪声抑制时会导致边缘模糊。对比实验显示,现有SOTA方法在LOL数据集上平均PSNR仅21.3dB。

方法论
CodeEnhance的SEM模块通过3×3卷积与全局平均池化生成通道权重,使高层语义引导底层特征匹配。CS机制通过公式zq=z+Δ实现码本自适应,其中Δ通过MLP学习得到。消融实验证实,引入CS后码本匹配准确率提升17.6%。

实验分析
在LOL-v2真实场景测试中,该方法PSNR达24.7dB,超越KinD++方法2.4dB。特别在极暗场景(光照<0.1lux)下,纹理保留指标(TMQI)提高31%。用户研究表明,IFT模块提供的可控增强选项使满意度提升42%。

结论与意义
该研究通过离散码本先验约束和交互式优化,实现了低光照图像增强在质量与可控性上的突破。其科学价值体现在三方面:(1)提出Image-to-Code范式降低学习不确定性;(2)SEM-CS-IFT三级架构为多目标优化提供新思路;(3)开源模型支持实际应用部署。在医疗内镜、自动驾驶等对图像质量要求严苛的领域具有明确的应用前景,同时为其他图像复原任务提供了可迁移的技术框架。未来工作可探索动态码本更新机制以适应更广泛的光照条件。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号