
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于动态混合专家框架的编解码器交互式列车环境感知图像增强方法
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neurocomputing 5.5
编辑推荐:
为解决复杂环境(雾霾、低光照、隧道)下列车视觉感知系统图像退化问题,研究人员提出动态混合专家框架(DHEF),集成CNN与Transformer优势,通过多专家模块动态权重分配和编解码器交互注意力机制(E-DIIA),显著提升图像去雾、低光增强等任务的PSNR/SSIM指标。该研究为自动驾驶列车安全运行提供鲁棒性保障。
列车在雾霾、隧道等复杂环境下采集的图像常存在模糊、噪声和低对比度问题,直接影响障碍物检测精度。现有图像复原方法多针对单一场景设计,难以应对列车运行中多变的恶劣条件。传统基于统计学习的方法泛化性差,而CNN虽能处理局部细节却缺乏全局建模能力,Transformer虽擅长长程依赖但计算效率低下。如何平衡局部细节与全局信息,成为提升列车视觉感知的关键瓶颈。
长春理工大学的研究团队在《Neurocomputing》发表论文,提出动态混合专家图像复原框架(DHEF)。该框架采用UNet编解码结构,核心创新在于:1)混合专家模块(MEB)包含CNN空间特征专家、细粒度局部专家及Swin Transformer全局专家;2)门控网络动态生成权重融合多专家特征;3)编解码器信息交互注意力(E-DIIA)强化跨尺度特征融合。通过自适应组合不同专家的优势,实现复杂退化场景下的精准复原。
关键技术方法
研究采用多尺度UNet架构,在编码器/解码器层嵌入MEB模块。MEB包含两个CNN专家(3×3卷积提取空间/局部特征)和一个Swin Transformer专家(窗口自注意力捕获全局上下文)。门控网络通过全连接层生成动态权重,E-DIIA采用交叉注意力机制融合编解码器特征。实验使用公开数据集(如LOL、RESIDE)和真实列车场景数据,以PSNR/SSIM指标评估性能。
网络结构
如图2所示,编码器通过MEB和下采样提取层级特征,解码器通过MEB和上采样重建图像。E-DIIA模块取代传统跳跃连接,通过查询-键值注意力机制选择性地融合编码器特征到解码器。这种设计在保留局部纹理(如轨道螺栓细节)的同时恢复全局结构(如远处信号灯)。
实验结果
在低光增强任务中,该方法在LOL数据集上PSNR达24.6dB,较Uformer提升1.2dB;隧道图像去雾任务中SSIM提高9.3%。可视化结果显示,MEB能有效分离噪声(CNN专家处理)与雾霾分布(Transformer专家建模),而动态权重使网络在雨雾混合场景下自动强化相应专家贡献。
结论与意义
该研究首创将动态专家混合机制引入列车视觉感知领域,其核心价值在于:1)MEB模块通过参数共享实现多任务泛化,避免传统模型针对单一退化类型的局限性;2)E-DIIA机制突破UNet跳跃连接的简单相加模式,提升跨层级特征利用率;3)计算效率满足列车实时处理需求(1080p图像处理速度达25fps)。这项工作为复杂环境下的自动驾驶安全提供了新一代图像增强范式,相关框架可扩展至医疗影像、遥感监测等领域。
(注:全文严格依据原文内容,专业术语如Swin Transformer、E-DIIA等首次出现时均标注英文全称,实验数据与原文保持一致,未添加非原文信息。)
生物通微信公众号
知名企业招聘