基于身份Transformer编码器的高效无人机语义分割模型ITE-U-Net研究

《IEEE Access》:Improved U-Net with Identity Transformer Encoder for Efficient UAV Semantic Segmentation

【字体: 时间:2025年12月01日 来源:IEEE Access 3.6

编辑推荐:

  本文针对无人机视觉系统中语义分割任务计算复杂度高、难以在资源受限设备上实时部署的问题,提出了一种轻量级U-Net改进架构ITE-U-Net。该模型通过引入高效的Identity Transformer Encoder(ITE)替代传统Vision Transformers(ViTs)中计算密集的自注意力机制,结合空间金字塔池化(SPP)模块增强多尺度特征提取能力,并采用Swish激活函数改善梯度流。实验结果表明,ITE-U-Net在保持与先进模型相当分割精度的同时,显著降低了参数数量(6.27M)和计算量(9.69 GFLOPs),推理速度达到280FPS,为无人机实时视觉应用提供了高效解决方案。

  
随着无人机技术的飞速发展,其在自主导航、环境监测、城市规划和空中监控等领域的应用日益广泛。然而,这些应用的成功实施高度依赖于无人机对复杂视觉场景的精确理解能力,其中语义分割技术扮演着关键角色。语义分割能够为图像中的每个像素分配语义标签,使无人机实现像素级的目标定位,支持障碍物检测、基础设施检查和小目标识别等关键视觉任务。
目前,基于卷积神经网络(CNN)的模型如U-Net因其在特征提取和定位方面的优势而广泛应用于语义分割任务。近年来,视觉Transformer(ViT)通过自注意力机制展现出了在建模全局上下文关系方面的卓越能力,但在处理高分辨率无人机图像时,其二次计算复杂度给资源受限的无人机平台带来了严峻挑战。虽然CNN擅长提取局部特征,但在建模长距离依赖关系方面效率较低,这使得在资源受限环境中平衡性能与计算效率变得复杂。
正是在这样的背景下,研究人员提出了一种名为ITE-U-Net的创新架构,该成果发表在《IEEE Access》期刊上。这项研究旨在解决现有ViT模型在无人机语义分割中计算成本高的问题,通过设计一种轻量级的U-Net改进架构,在保持高性能的同时显著降低计算复杂度。
关键技术方法
研究团队采用了多项创新技术来优化模型性能:基于MetaFormer的Identity Transformer Encoder(ITE)使用身份映射替代传统自注意力机制,大幅降低了计算复杂度;在瓶颈处集成空间金字塔池化(SPP)模块,通过多尺度池化操作增强上下文信息提取;采用Swish激活函数替代ReLU,改善梯度流动性和训练稳定性;模型采用4级U-Net框架,仅在编码器中使用ITE块, decoder保持原始结构但减少通道数以控制复杂度。
模型架构设计
ITE-U-Net构建在传统的4级U-Net框架上,采用编码器-解码器结构,通过跳跃连接保持多尺度空间细节。与原始U-Net的主要区别在于,研究人员用ITE块替换了编码器中的卷积块。
Identity Transformer Encoding(ITE)核心创新在于其token混合策略。在标准ViT块中,输入图像首先被分割成patch序列并线性嵌入为token,然后经过两个顺序子块处理:第一个子块包含token混合操作,第二个子块包含多层感知机(MLP)。ITE块的关键改进是用身份映射操作替代计算密集的自注意力机制,大幅降低复杂度同时保持捕捉长距离依赖关系的能力。
实验设置与数据集
研究采用UAV Semantic Segmentation数据集进行评估,该数据集包含超过30万张RGB航空图像及对应的语义掩码标签。为平衡计算效率与评估鲁棒性,采用蒙特卡洛交叉验证方法,随机选择21,000张图像进行训练和验证。
评估指标包括交并比(IoU)和Dice系数衡量分割精度,参数量(Params)、浮点运算数(FLOPs)、运行时间和帧率(FPS)评估计算效率。所有实验在单个GeForce RTX 4070 Ti SUPER GPU上实施,输入分辨率设置为256×256像素。
实验结果分析
定量结果显示,ITE-U-Net在保持竞争力的分割精度的同时,显著降低了计算需求。与U-Net(31.04M参数,54.74 GFLOPs)相比,ITE-U-Net仅需6.27M参数和9.69 GFLOPs,实现了约3.5倍的参数减少和5.6倍的计算量降低。
在推理速度方面,ITE-U-Net达到3.570毫秒每图像(280 FPS)的处理速度,仅次于ThinDyUNet(3.498毫秒,286 FPS),但精度显著更高。配对t检验结果表明,ITE-U-Net在IoU和Dice指标上相对多数基线模型显示出统计显著性改进。
定性分析显示,在复杂场景特别是小目标检测方面,ITE-U-Net相比其他轻量级模型能生成更准确、连续的分割掩码。在第三组挑战性场景中,当无人机目标非常小且存在多个混淆物体时,ITE-U-Net表现出优越的区分能力。
消融研究
消融实验系统评估了各组件贡献。结果表明,仅在编码器中使用ITE块能提升性能,而在解码器中添加会降低效果,因为ViT块的空间信息聚合特性不利于解码阶段需要的高频细节恢复。SPP模块的加入通过多尺度特征提取进一步提升性能,Swish激活函数最终带来精度提升且对复杂度影响可忽略。
实际应用验证
通过实际案例研究验证了框架在真实环境中的适用性。实验使用配备Jetson Orin Nano 8GB伴侣计算机的监控无人机,在首尔受控环境中进行测试。
实地测试结果表明,ITE-U-Net在复杂背景和不同飞行条件下均能保持稳定的分割性能,在伴侣计算机上平均运行时间为0.121秒,满足无人机应用的实际需求。
研究结论与意义
ITE-U-Net通过身份映射的token混合策略、多尺度特征聚合和优化的激活函数,成功实现了分割精度与计算效率的平衡。该研究为资源受限的无人机平台提供了一种实用的语义分割解决方案,通过降低模型复杂度而不显著牺牲精度,推动了轻量级深度学习模型在边缘设备上的应用发展。未来工作可进一步探索混合多尺度方法,在保持计算效率的同时继续提升性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号