
-
生物通官微
陪你抓住生命科技
跳动的脉搏
超越传统视觉:RGB-事件融合在动态交通场景中实现鲁棒目标检测
【字体: 大 中 小 】 时间:2025年09月17日 来源:Communications in Transportation Research 14.5
编辑推荐:
本文针对传统RGB相机在动态交通环境中动态范围受限、高频细节丢失导致目标检测性能下降的问题,提出了一种创新的运动线索融合网络(MCFNet)。通过事件校正模块(ECM)实现时空对齐,事件动态上采样模块(EDUM)提升空间分辨率,以及跨模态Mamba融合模块(CMM)实现自适应特征融合,在DSEC-Det和PKU-DAVIS-SOD数据集上分别实现了7.4% mAP50和1.7% mAP的性能提升,显著增强了智能车辆在复杂光照条件下的感知能力。
在智能驾驶飞速发展的今天,视觉感知系统犹如车辆的"眼睛",承担着感知周围环境、辅助决策的重要使命。然而,传统RGB相机在动态交通场景中却面临着严峻挑战:当车辆驶入光线骤变的隧道,或在夜间行车遇到强烈车灯照射时,相机的动态范围限制会导致图像全局对比度下降,纹理、边缘等高频细节大量丢失。这种"视觉缺陷"使得车辆难以提取有效的判别特征,最终造成目标检测性能的显著下降。
正如研究人员在《Communications in Transportation Research》上发表的最新研究所指出,这个问题在边界感知场景中尤为突出。传统RGB相机由于光敏元件的固有限制和固定帧率,在曝光不足的情况下极易丢失关键信息,导致下游算法失效。相比之下,仿生的事件相机展现出独特优势:它们具备高动态范围和微秒级时间分辨率,即使在极端条件下也能稳定成像。这为通过多模态融合提升视觉感知性能提供了新的解决思路。
为攻克这一技术难题,研究团队创新性地提出了运动线索融合网络(MCFNet),该网络包含三个核心组件:事件校正模块(ECM)通过基于光流的扭曲操作实现异步事件流与图像帧的时间对齐;事件动态上采样模块(EDUM)利用图像局部平滑特性抑制噪声,生成高分辨率事件特征;跨模态Mamba融合模块(CMM)则通过新颖的跨模态交错扫描机制实现自适应特征融合,有效整合互补信息。
在技术方法层面,研究人员首先采用体素化方法将事件流转换为密集的张量表示,然后通过ECM模块估计光流场并进行时间对齐。EDUM模块通过全局平均池化和1×1卷积实现动态上采样,同时利用RGB特征的空间注意力图抑制噪声。CMM模块则基于选择性状态空间模型(SSMs),通过交叉连接和Mamba架构实现深度特征交互。研究在DSEC-DET和PKU-DAVIS-SOD两个数据集上进行了全面验证,采用COCO评价指标包括mAP50和mAP,同时计算了参数量、FLOPs和运行时间等效率指标。
研究结果方面,通过"与最先进目标检测方法的比较"显示,MCFNet在两个数据集上都取得了最佳性能。在类别不平衡的DSEC-Det数据集上,该方法比现有最佳方法的mAP50和mAP分别高出7.4%和1.7%;在类别平衡的DSEC-Det数据集上,mAP50和mAP分别提升3.3%和1.7%。特别是在PKU-DAVIS-SOD数据集上,MCFNet比SODFormer在mAP和mAP50上分别领先11.4%和11.9%。
"在PKU-DAVIS-SOD上的跨场景评估"进一步证明了方法的鲁棒性。即使将在DSEC-Det数据集上训练的模型迁移到PKU-DAVIS-SOD数据集,仅对检测头进行轻微微调,MCFNet仍然优于其他方法,显示出强大的跨领域泛化能力。
"与最先进事件帧积累方法和运动补偿方法的比较"结果表明,ECM表示方法在所有事件表示方法中都达到了最佳性能。在类别不平衡的DSEC-Det数据集上,该方法比体素方法在mAP50上高出1.7%,比ConvGRU-EV-FlowNet在mAP50上领先1.4%。这证明通过与检测网络端到端联合训练,ECM能够学习到超越亮度恒定和线性运动假设的场景特征。
"定性结果"部分通过可视化对比展示了MCFNet的优越性。与两种领先的SOTA检测方法相比,MCFNet在非均匀曝光、低光照多目标和运动模糊等复杂场景中都表现出更好的鲁棒性。事件表示的定性比较显示,现有运动补偿方法在光照快速变化或复杂运动模式下会产生伪影和噪声,而ECM生成的表征能够保持目标保真度。
"消融研究"系统验证了各个组件的贡献。以使用体素事件表示和简单特征相加的双流YOLOX架构为基线,逐步添加ECM、EDUM和CMM模块都带来性能提升。在类别不平衡的DSEC-Det数据集上,完整模型比基线在mAP和mAP50上分别提高8.1%和12%。特征可视化表明,CMM能够同时建模双模态的全局信息,精确识别模态间的互补关系,通过自适应融合实现互补优势。
研究还特别验证了"ECM联合训练的好处"。与两阶段训练策略相比,端到端联合训练使ECM能够学习超越亮度恒定和线性运动假设的场景特征,实现更精确的时间对齐,生成更符合目标检测要求的事件表示。
在"上采样方法的选择"实验中,EDUM动态根据输入调整权重的方法优于Pixel Shuffle和转置卷积等常见上采样方法,实现了更精确的空间对齐和更好的检测性能。
这项研究的结论部分强调,MCFNet通过ECM克服了传统光流估计任务中恒定光照和线性运动的假设限制,EDUM基于特征空间分布动态上采样事件特征,CMM通过同时执行模态间特征交互和全局信息提取增强了对主导模态特征的感知和选择精度。实验证明,MCFNet在各种复杂动态交通场景中显著优于现有方法。
尽管该方法在检测精度方面取得了优异性能,但事件数据的时空对齐和多模态交叉融合机制的引入导致模型结构相对复杂,计算开销较大,这对在资源受限设备上的部署提出了挑战。研究人员指出,未来工作将引入事件数据的稀疏性约束,例如使用稀疏token机制过滤非活跃区域,仅在事件发生处进行融合,从而减少冗余计算。同时还将探索动态token选择和模型剪枝,进一步减少计算负载,加速推理过程,满足实时应用需求。
这项研究不仅为智能驾驶系统在复杂环境下的可靠感知提供了技术解决方案,也为多模态融合领域的发展指明了新的方向。通过巧妙结合RGB相机丰富的外观信息和事件相机卓越的运动捕捉能力,MCFNet成功实现了"1+1>2"的融合效果,为未来智能交通系统的安全性和可靠性奠定了坚实基础。随着后续优化工作的推进,这一技术有望早日应用于实际智能驾驶系统中,让车辆在各种挑战性环境下都能拥有"火眼金睛"。
生物通微信公众号
知名企业招聘