
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于特征擦除交互网络的RGB-热成像视频目标检测方法及统一基准研究
【字体: 大 中 小 】 时间:2025年06月09日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决RGB传感器在恶劣光照条件下视频目标检测(VOD)性能受限的问题,研究人员提出新型RGB-热成像(RGBT)多模态检测任务,开发了基于负激活函数的特征擦除交互网络(EINet),通过热成像特征消除RGB特征噪声,并建立包含50组真实交通场景视频的VT-VOD50数据集。实验表明EINet在46.3%检测精度下实现92.6 FPS的高效性能,为智能交通领域多模态感知提供新范式。
在智能交通和自动驾驶领域,视频目标检测(Video Object Detection, VOD)技术正面临严峻挑战。传统基于RGB图像的方法在低光照、强逆光或极端天气条件下性能急剧下降,而热成像(Thermal)技术凭借其温度感知特性可有效克服这些限制。安徽大学的研究团队创新性地将两种模态结合,首次提出RGB-热成像视频目标检测(RGBT VOD)这一全新研究方向,相关成果发表于《Engineering Applications of Artificial Intelligence》。
研究团队采用双分支特征提取架构,创新性地开发了负SiLU激活函数用于热成像特征引导的RGB特征噪声擦除,结合卷积注意力模块(CBAM)实现多模态特征优化。通过设计局部时间窗口的时空邻近增强模块(TPE),仅需连续三帧即可高效建模时空关系。实验数据来自真实交通场景采集的50对RGBT视频序列(VT-VOD50数据集),涵盖复杂光照、运动模糊等挑战性场景。
【EINet: 基于擦除的交互网络】
通过热成像分支识别无效区域,利用负激活机制消除RGB分支对应位置的噪声特征,可视化实验显示该方法能显著提升目标特征纯度。CBAM模块的引入使擦除过程具有自适应调节能力。
【VT-VOD50数据集】
相比传统ImageNet VID数据集,新构建的VT-VOD50包含更丰富的真实交通场景,每对视频均经严格时空对齐,标注涵盖车辆、行人等多类目标在极端条件下的检测难点。
【实验结果】
在相同硬件条件下,EINet以仅使用3帧的轻量级设计,达到与需要大量辅助帧的传统方法相当的检测精度。消融实验证实负激活函数使mAP提升2.1%,TPE模块将推理速度提高37%。
该研究开创性地解决了多模态视频检测中的特征噪声与计算效率双重难题。EINet框架展示出工程应用的显著优势:在保持实时性(92.6 FPS)的同时,对低光照场景的检测精度较单模态方法提升达15.8%。VT-VOD50数据集的发布填补了该领域基准数据的空白,为后续研究提供重要平台。研究团队特别指出,负激活机制可扩展应用于其他多模态系统,而局部时间窗口策略为边缘设备部署提供了新思路。
生物通微信公众号
知名企业招聘