
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多尺度线性注意力与自然语言描述的无人机实时跟踪框架TCMLTrack研究
【字体: 大 中 小 】 时间:2025年04月27日 来源:Scientific Reports 3.8
编辑推荐:
为解决无人机(UAV)跟踪任务中视觉定位(visual grounding)与目标跟踪(object tracking)割裂的问题,新疆大学团队提出融合三角整合(triangular integration)与轻量级集中多尺度线性注意力(CMLatten)的TCMLTrack框架,在6个无人机数据集上实现0.819精度与61FPS速度,为跨模态实时跟踪提供新范式。
在无人机监控、灾害救援等场景中,如何让机器准确理解"跟踪穿红衣服的行人"这样的自然语言指令并持续锁定目标,是智能视觉系统的核心挑战。传统方法将视觉定位(通过语言确定初始目标)与目标跟踪(后续帧连续定位)割裂处理,既忽略了语言语义对跟踪的指导作用,又无法实现端到端训练。更棘手的是,无人机拍摄的视频常伴随目标快速移动、尺度变化和低分辨率等问题,现有跟踪器在计算效率与多模态融合方面存在明显瓶颈。
新疆大学计算机科学与技术学院的研究团队在《Scientific Reports》发表研究,提出名为TCMLTrack的创新框架。该工作首次将视觉定位与目标跟踪统一为自然语言描述下的联合任务,通过三角整合模块建立语言-模板图像-搜索图像的三元关系模型,并设计集中多尺度线性注意力(CMLatten)实现全局感受野与多尺度学习的平衡。实验表明,该框架在UAV123等6个无人机数据集上以61帧/秒的速度达到0.819的精度,显著优于现有技术。
关键技术包括:1) 基于类间相似性与方差的特征通道筛选机制,从预训练视觉-语言模型中提取判别性特征;2) 引入残差结构的三角整合模块,通过RfW、Rf'F'和RF'W'三组关系建模实现跨模态对齐;3) 创新设计的CMLatten注意力,通过幂次映射函数fp(x)增强特征方向区分度,结合深度卷积(DWC)保持特征多样性,在线性复杂度下实现接近softmax注意力的聚焦能力。
统一框架设计
TCMLTrack采用Swin Transformer和BERT分别处理视觉与语言输入,通过三角整合模块动态选择重要特征通道。该模块通过式(2)(3)计算类间相似性,结合式(5)的方差准则,筛选出最具判别力的Q个通道。实验显示,单独使用相似性或方差准则会使跟踪精度下降2-3%,而联合优化可提升至83.9%。
注意力机制创新
传统线性注意力因缺乏非线性重加权导致注意力分散(图5)。研究提出式(10)的幂次映射函数fp(x)=||x||/||xp||·xp,当p=3时,能使相似查询-键值对(如15)的相似度放大,差异对(如16)缩小。结合式(14)的深度卷积,CMLatten在MixFormer架构下将跟踪精度从79.5%提升至88.1%(表2)。
实时性优化
通过残差结构冻结主干网络,仅训练轻量级残差嵌入(式6-8)。如表1所示,引入残差后参数量保持48M不变,但推理速度从48FPS提升至62FPS。在Intel i9-10900K平台测试中,窗口尺寸从72扩大至562时,精度提升7.5%(表5),证明大感受野优势。
性能验证
在UAV20L长时跟踪数据集上,TCMLTrack以82.2%精度超越MixFormer 8.1个百分点(图7e)。图8显示,当目标被树木短暂遮挡(帧#266)时,对比方法GRM误跟背景,而TCMLTrack能通过语言语义重新锁定目标。但研究也指出,当语言描述模糊(如"草原上的羊")时,系统可能初始化失败(图13a),需配合初始框修正。
这项研究的意义在于:1) 首次实现语言引导的端到端无人机跟踪,突破传统两阶段处理的局限性;2) CMLatten机制为Transformer在边缘计算设备的部署提供新思路;3) 公开的三角整合模块可迁移至其他跨模态任务。未来工作将探索动态语言消歧机制,并结合多机器人视觉SLAM技术提升复杂场景适应性。正如作者在讨论部分强调,尽管通过残差结构降低计算量,但处理高分辨率图像时仍需进一步优化,这为后续研究指明了方向。
生物通微信公众号
知名企业招聘