基于时空协同优化的事件引导式低光照视频增强技术

《Pattern Recognition》:Spatio-temporal collaborative optimization for event-guided low-light video enhancement

【字体: 时间:2026年02月21日 来源:Pattern Recognition 7.6

编辑推荐:

  低光视频增强中,针对事件相机与图像模态融合存在的噪声耦合和结构缺失问题,本文提出STCO框架,通过梯度异构模态对齐、双向时空聚合模块和交叉模态互导优化,有效提升极端低光下的视频细节和时空一致性,实验表明优于现有方法。

  
姚子书|苏向向|周胜宁|朱光宇|范国栋|陈静
山东技术商学院计算机科学与技术学院,烟台,264003,中国

摘要

近年来,事件相机因其高时间分辨率而成为解决低光照视频增强(LLVE)中动态范围有限和运动模糊问题的有前景的解决方案。然而,在极低光照条件下,现有的多模态策略面临两个根本的物理挑战:1)跨模态噪声耦合:由于高背景噪声与事件流的离散、异构性质之间的相互作用,直接融合会导致严重的特征干扰;2)结构缺陷:单帧事件流的极端空间稀疏性使得无法独立提供完整的结构先验。在本文中,我们首先利用梯度作为这些异构模态之间的内在同构性,将其作为物理桥梁来利用互补特征并构建高保真的结构先验以实现鲁棒增强。此外,结合Retinex理论,我们利用反射率分量进行鲁棒的运动建模,聚合多帧时空信息以有效补偿结构稀疏性。大量实验表明,我们提出的方法在极低光照场景中显著恢复了细节,优于现有技术。代码将在https://github.com/iijjlk/STCO提供。

引言

传统相机在极低光照场景中面临两个根本性瓶颈。首先,光子稀少导致信噪比(SNR)急剧下降,造成严重的噪声和结构信息丢失。其次,为补偿低光子通量而需要的长时间曝光不可避免地在动态场景中引入运动模糊。这些综合的物理退化严重侵蚀了视频的结构细节和时间动态性,对自动驾驶和监控等下游应用的可靠性构成了重大挑战[1]、[2]、[3]、[4]。因此,LLVE已成为计算机视觉中一个关键且紧迫的研究课题。
最近,事件相机凭借其微秒级的时间分辨率[5]、[6]、[7]和高动态范围[8]、[9],为解决动态范围有限和运动模糊的问题提供了新的视角,成为LLVE的理想辅助模态。早期的方法[10]、[11]、[12]、[13]主要基于事件流具有固有信号纯度和结构完整性的理想化前提,侧重于构建跨模态网络进行直接特征融合。例如,Evlight[11]利用SNR识别低信号区域,并利用高频事件信息补充纹理细节。然而,这些方法往往忽略了在极低光照条件下这些理想化假设的失效,从而无法有效处理信号退化和跨异构模态的噪声耦合。这突显了当前任务中亟需解决的两个关键物理瓶颈:
  • 1)
    跨模态噪声耦合:当前的体素化策略难以解决由帧运动模糊和事件不连续性引起的结构不对齐问题。在超低光照下,这种不对齐与叠加噪声(拍摄噪声和BA噪声)的恶劣耦合会破坏无约束融合,导致混合退化和伪影[14]。
  • 2)
    单帧信息缺陷:由于帧中的运动模糊和事件中的结构不完整性,单帧信息无法提供鲁棒的结构先验。受极低SNR的限制,现有的循环建模策略[12]、[14]、[15]、[16]、[17]会因噪声和结构缺陷而累积错误,从而影响长期时间一致性。
  • 最近,朱等人[18]揭示了事件流和图像之间的内在同构性,证明事件生成和图像边缘在梯度域中表现出显著的几何一致性。然而,在极低光照下,真实的梯度常常被拍摄噪声所淹没,使得直接显式对齐极易损害结构保真度。在此,我们提出了一种双模态互补策略。与易受干扰的显式对齐不同,我们利用空间图像特征引导事件聚焦到高频结构,同时利用事件特征辅助重建精细的图像细节。
    此外,现有的时间建模策略依赖于光流对齐。然而,在极暗场景中,“亮度恒定假设”常常失效,导致运动估计崩溃和伪影传播。受Retinex理论的启发,我们将时间建模转移到反射率潜在空间。通过利用反射率分量对光照变化的不变性作为运动估计的“稳定锚点”,我们在不稳定的低光照环境中建立了鲁棒的空间时间一致性(如图1所示)。具体来说,我们提出了一个时空协作优化(STCO)框架,将Retinex理论与梯度同构性相结合,建立了一个闭环优化机制。在时间上,我们构建了一个双向时间聚合模块(BTAM),以实现长时间范围内的精确运动对齐和信息聚合,有效补偿单帧事件流和图像的结构缺陷。在空间上,我们引入了一个跨模态互导细化(CMGR)模块,该模块利用显式物理约束和潜在特征互补性来同步优化噪声抑制和细节恢复。利用STCO,我们在极暗的动态环境中实现了鲁棒的LLVE。我们的主要贡献总结如下:
  • 我们提出了一种双分支互补策略,用于模态协作优化。通过在图像和事件分支之间建立互导闭环,解决了事件辅助LLVE中的“跨模态噪声耦合”问题,并将负面干扰转化为协同增益。
  • 我们提出了STCO框架,在空间维度上实现了模态互补性,同时创新性地引入了BTAM。这确保了时间一致性,并补充了单帧事件中缺失的结构信息。
  • 在多个公共基准数据集上的广泛实验表明,我们的方法在定量指标和定性结果方面均显著优于现有的最先进技术。
  • 低光照图像增强

    早期的低光照图像增强(LLIE)方法主要是非基于学习的,依赖于手工制作的特征,如直方图均衡[19]、[20]、[21]、伽马校正[22]、[23]和基于Retinex的算法[24]、[25]、[26]。因此,这些方法在复杂光照条件下的鲁棒性往往有限。随着深度学习的兴起,基于学习的方法应运而生:Lore等人[27]采用了堆叠去噪自编码器,而Chen等人[28]引入了完全

    低光照下的事件-梯度同构性

    在本小节中,我们首先分析事件流和视频帧之间的物理联系。事件相机作为一种差分传感器,仅在像素的对数强度变化超过阈值?时触发事件ek=(xk, yk, tk, pk)I(x, y, t)?≈?pk?·??。根据最近的神经形态成像研究[18],通过在小时间间隔内积分这些离散变化,累积的事件流E(x, y)

    实验设置

    实现细节:我们的方法基于PyTorch框架实现,并在NVIDIA RTX 3090 GPU上进行训练/测试。采用的Adam优化器的参数设置为β1β2。训练图像被裁剪成256×256的块,批量大小为2,共训练500个周期。为了防止过拟合并提高泛化能力,我们进一步应用了数据增强技术,包括随机水平/垂直翻转和90度旋转。

    结论

    在本文中,我们提出了一个STCO框架,以解决事件引导的低光照视频增强中的“跨模态噪声耦合”这一关键挑战。我们的核心创新是一种双分支互导策略,其中图像和事件模态相互协作,将它们固有的噪声干扰转化为协同增益。为了进一步确保时间一致性和克服事件数据的结构稀疏性,我们引入了BTAM,有效融合了

    CRediT作者贡献声明

    姚子书:撰写——原始草案,概念化。苏向向:撰写——原始草案,形式分析。周胜宁:软件,数据管理。朱光宇:资源,项目管理。范国栋:资源,调查。陈静:监督,资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(项目编号:62433005、62272036、6213167、62202268、62301105);山东省泰山学者计划专项基金(项目编号:tsqn202306274和tsqn202507240);以及山东省自然科学基金(项目编号:ZR2025QC712、ZR2025QC695、ZR2025MS985)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号