
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于频率域滤波与多尺度特征融合的视觉目标跟踪增强方法EFTrack
【字体: 大 中 小 】 时间:2025年08月02日 来源:Journal of Visual Communication and Image Representation 3.1
编辑推荐:
本文推荐一篇创新性视觉目标跟踪研究,作者团队提出EFTrack网络,通过轮廓信息增强模块(CIE)和块信息融合模块(PIF)实现目标-背景区分与局部连续性建模,结合轻量化多尺度特征融合模块与DropMAE预训练模型,在GOT-10k数据集上AO指标超越TATrack-B和SeqTrack-B384分别达3.4%和1.9%。该工作为单流单阶段(single-stream single-stage)框架提供了突破性优化方案。
Highlight亮点
• 创新性提出EFTrack视觉目标跟踪网络,通过骨干网络优化实现多基准测试精度提升
• 基于频率域滤波的轮廓信息增强模块(CIE)有效区分高相似度特征的目标与背景
• 独创块信息融合模块(PIF)建立非重叠块间的局部连续性信息模型
• 采用组混洗机制的轻量化多尺度特征融合模块赋予网络多尺度感知能力
Proposed method研究方法
本节将采用由全局到细节的方式全面阐述目标跟踪网络。研究采用ViT-B骨干网络结合候选消除模块直接构建跟踪器,通过三大核心创新突破传统单流单阶段框架局限:1)CIE模块利用频域分析增强目标轮廓;2)PIF模块通过跨块信息交互解决局部信息碎片化;3)基于上采样和通道学习的层次化结构实现多尺度特征融合。网络初始化采用Kinetics-700视频数据集训练的DropMAE预训练模型,显著提升视频动作信息建模能力。
Experiments实验验证
在多个基准跟踪数据集上与最先进跟踪器对比显示,本网络性能优势显著。特别在GOT-10k数据集上,AO指标较TATrack-B和SeqTrack-B384分别提升3.4%和1.9%。模块消融实验证实各创新组件的性能贡献,其中DropMAE预训练使跨场景泛化能力提升27%。
Conclusion结论
本研究提出的基于ViT-B的目标跟踪网络通过DropMAE预训练模型展现出卓越泛化性能。由CIE和PIF模块构成的频率域滤波网络实现了目标-背景区分与局部连续性建模,配合轻量化多尺度融合模块,为单流单阶段跟踪框架提供了创新优化路径。实验证明该方案在复杂场景中具有显著性能优势。
生物通微信公众号
知名企业招聘