HyCTAS:一种用于实时图像分割的多目标混合卷积-变换器架构搜索方法

《Neurocomputing》:HyCTAS: Multi-objective hybrid convolution-transformer architecture search for real-time image segmentation

【字体: 时间:2025年10月31日 来源:Neurocomputing 6.5

编辑推荐:

  实时图像分割需在严格延迟和内存限制下兼顾精细空间细节与全局上下文。本文通过Hybrid Convolutional-Transformer Architecture Search(HyCTAS)框架,提出多分支、多目标优化方法,自动搜索轻量级卷积与高效自注意力机制的混合架构,在Cityscapes、ADE20K、COCO等数据集上实现高精度与低延迟的平衡。

  图像分割是计算机视觉中的一个核心任务,其目标是为图像中的每个像素分配一个语义类别标签。这一任务在自动驾驶、医学影像分析和通用场景理解等领域具有广泛的应用价值。然而,随着应用场景的不断扩展,图像分割不仅需要高精度,还必须满足实时性要求。这带来了对模型架构设计的双重挑战:既要保留图像的细粒度空间细节,又要有效地捕捉全局上下文信息,同时还要在有限的计算资源和内存预算下运行。

当前的图像分割模型通常采用卷积神经网络(CNN)作为基础架构,因其在局部特征提取方面表现出色。然而,CNN在捕捉远距离依赖关系时存在局限,这限制了其在复杂场景中的表现。为了克服这一缺陷,近年来越来越多的研究开始探索将Transformer结构引入图像分割任务。Transformer通过自注意力机制能够建模长距离依赖,但其计算和内存开销较高,尤其在处理高分辨率图像时,这种开销可能变得不可接受。因此,如何在保持高分辨率特征的同时,有效地融合自注意力模块,成为研究的一个关键方向。

本文提出了一种名为HyCTAS(Hybrid Convolutional-Transformer Architecture Search)的框架,旨在通过自动架构搜索方法,发现高效且高性能的图像分割模型。HyCTAS的核心思想是构建一个多分支的超网络结构,允许在不同分辨率下并行处理图像特征。这种结构不仅保留了高分辨率特征流,还通过引入轻量级卷积模块和内存高效的自注意力模块,实现了对计算资源和内存的优化。此外,HyCTAS采用基于进化计算的多目标优化策略(NSGA-II),能够在一次搜索过程中返回多个在速度与分割精度之间取得平衡的模型候选。

HyCTAS的多分支设计灵感来源于HRNet(High-Resolution Network),该模型通过在多个分辨率下保持并行特征流,逐步融合不同尺度的信息,从而实现更精确的分割结果。然而,传统的HRNet架构在引入自注意力模块时面临挑战,因为直接替换卷积层可能导致计算和内存的显著增加。为了解决这一问题,HyCTAS通过设计可搜索的单元(searchable cells)和节点(searchable nodes),使得模型能够在不同分辨率下灵活地选择使用轻量级卷积或内存高效的自注意力机制,从而在保持高分辨率信息的同时,有效降低计算负担。

在搜索过程中,HyCTAS不仅关注分割精度(如mIoU指标),还综合考虑了模型的推理速度(如延迟和FPS指标)。这种多目标优化策略使得HyCTAS能够在一次搜索中找到一组在速度和性能之间取得最优平衡的模型架构,即所谓的“近似帕累托前沿”(approximate Pareto front)。通过这种方式,HyCTAS能够生成多个候选模型,每个模型在不同的分辨率和计算需求下都表现出色,为实际应用提供了更大的灵活性。

为了验证HyCTAS的有效性,本文在多个标准数据集上进行了实验,包括Cityscapes、ADE20K和COCO。这些数据集涵盖了不同的场景和语义类别,是评估图像分割模型性能的重要基准。实验结果显示,HyCTAS所发现的模型在不依赖ImageNet预训练的情况下,依然能够在这些数据集上取得优异的分割精度和推理速度。这一结果表明,HyCTAS不仅能够生成高效的模型,还能在没有预训练的情况下实现良好的性能,这对于实际部署具有重要意义。

HyCTAS的另一个重要贡献在于其搜索空间的设计。传统的混合CNN-Transformer架构搜索方法通常局限于单一路径或单一分辨率的搜索空间,这使得它们难以保留高分辨率特征流或覆盖广泛的延迟预算。相比之下,HyCTAS通过构建多分支、多分辨率的搜索空间,能够更全面地探索可能的模型架构。这种设计不仅提高了搜索的效率,还增强了模型在不同应用场景下的适应能力。

此外,HyCTAS还特别关注实际应用中的可操作性。在模型设计中,轻量级卷积和内存高效的自注意力模块并不是全新的创新,而是经过精心选择和调整的现有技术的组合。这种策略使得HyCTAS能够在保持模型性能的同时,确保其在实际硬件上的可行性。通过这种方式,HyCTAS不仅提供了理论上的突破,还为实际部署提供了切实可行的解决方案。

HyCTAS的研究成果表明,通过合理的架构搜索策略,可以有效地平衡图像分割任务中的精度与效率问题。这一方法为未来的研究提供了新的思路,尤其是在处理高分辨率图像和实时性要求较高的场景时。同时,HyCTAS的成功也验证了多目标优化在深度学习模型设计中的重要性,它能够帮助研究者找到在不同约束条件下最优的模型架构。

在实际应用中,HyCTAS的框架可以用于开发适用于移动设备、嵌入式系统或边缘计算的图像分割模型。这些模型需要在有限的计算资源和内存条件下运行,而HyCTAS通过其多分支设计和多目标优化策略,能够在这些约束下生成高效的模型。此外,HyCTAS的搜索方法还可以扩展到其他计算机视觉任务,如目标检测和图像分类,为多任务学习提供新的可能性。

总之,HyCTAS为图像分割任务提供了一种全新的自动架构搜索方法,能够在保持高分辨率特征的同时,实现高效的模型设计。通过多分支搜索空间和多目标优化策略,HyCTAS不仅提高了模型的性能,还增强了其在不同应用场景下的适应能力。这一研究成果对于推动高效、实时的图像分割技术具有重要意义,也为未来的模型设计提供了新的方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号