ShortNeXt:一种用于准确分类结直肠癌组织病理图像的新方法

《Computer Vision and Image Understanding》:ShortNeXt: A novel method for accurate classification of colorectal cancer histopathology images

【字体: 时间:2026年02月07日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  复杂交通场景中目标检测的低频偏差问题,通过集成频率自适应注意力、动态卷积和频域监督模块进行优化,在KITTI和COCO数据集上实现mAP提升,计算开销低。

  
孙文彦|谢菲菲|张玉轩|魏亮瑞|褚福正|唐晓宇
山东科技大学测绘与地理信息学院,中国山东省青岛市前湾港路579号,266590

摘要

在复杂的交通场景中,目标检测器经常面临小目标、边界混乱和严重遮挡等问题,这是由于模型存在低频偏置所致——这些模型能够捕捉到平滑的背景,但忽略了高频细节。为了解决这个问题,我们提出了一种频域增强(FDE)框架,该框架整合了三个模块:(i)频率自适应注意力(FAA),用于动态强调有信息量的频率成分;(ii)增强型频率动态卷积(EFDConv),用于自适应地建模多样的光谱模式;(iii)频率感知监督(FAS),用于引导训练以保留边缘和细结构。将FDE嵌入到RT-DETR中后,在KITTI数据集上实现了+1.7 mAP的提升,在COCO数据集上实现了+1.9 mAP的提升,且计算开销微乎其微。这些结果表明,FDE有效地减轻了低频偏置,提高了对小目标和相邻目标的检测能力,使其适用于复杂的交通环境。

引言

现代目标检测方法已经从两阶段R-CNN风格的框架发展到基于CNN的一阶段检测器,最近又发展到基于Transformer的模型。两阶段方法(例如R-CNN系列,Sun等人,2024年;Han等人,2024年)通常能够实现较高的检测精度,但依赖于区域提议和多阶段处理,这难以满足安全关键应用的实时要求。一阶段检测器(例如YOLO和SSD系列,Diwan等人,2023年;Huang等人,2020年;Wang和Liao,2024年;Liu等人,2016年;Ge等人,2021年)通过直接回归边界框和类别来提高效率,但在小目标、严重遮挡的目标和高密度场景中的性能往往会下降。基于Transformer的检测器(例如DETR及其变体,Carion等人,2020年;Zhu等人,2021年;Zhang等人,2023年;Zhao等人,2024年;Lv等人,2024年)去除了手工制作的锚点和后处理步骤,可以实现更好的速度-精度平衡,但它们通常需要大规模的训练数据和较长的训练时间,并且仍然难以在复杂的交通场景中捕捉到细粒度的边界。这些权衡表明,与其完全替换现有的检测器,不如设计可以插入到它们中的机制来增强在具有挑战性场景中的感知能力。
在复杂的道路环境中,车辆和行人等对象通常密集排列并相互遮挡,边界细节很容易与背景或邻近对象混合在一起,这大大增加了检测的难度。交通分析应用(如拥堵估计和事件检测)强调了在复杂道路环境中需要鲁棒的感知系统(Jindal等人,2021年;Tripathi等人,2023年)。传统的基于CNN和Transformer的检测器主要在空间域提取特征,倾向于关注低频信息(Xu等人,2020年),例如交通图像中变化缓慢的成分(如整体车辆轮廓或大型平滑区域),而忽略了高频细节(例如车窗与车身的间隙、车灯边缘、车牌字符、行人轮廓)。这种光谱偏置(Xu等人,2020年)会导致相邻对象“粘在一起”,使得它们的边界难以区分:例如,两辆颜色和纹理相似的汽车可能会共享低频特征,从而掩盖它们之间的间隙,导致一个对象被合并到另一个对象中或完全被忽略。因此,使实时检测器能够更强烈地关注高频细节,同时对抗低频偏置是一个重要的未解决问题。与仅在空间域操作或以有限、特定任务的方式利用频率信息的现有检测框架不同,我们的工作直接针对复杂交通场景中的这种光谱偏置,通过明确设计一个频域增强框架来增强高频细节,同时保持实际交通监控和自动驾驶系统所需的效率。
本文的主要贡献是一个统一的频域增强(FDE)框架,用于复杂交通场景中的目标检测。FDE整合了三个组件——频率自适应注意力(FAA)、增强型频率动态卷积(EFDConv)和频率感知监督(FAS),共同减轻了现代检测器中的低频偏置。FAA在通道和空间层面平衡了低频和高频响应;EFDConv通过频率分区的动态核自适应地建模多样的光谱模式;FAS在训练过程中施加了补充的频率和梯度域约束。由于其高效的设计,FDE可以嵌入到实时检测器中,用于交通监控和自动驾驶等应用,其中对小目标和遮挡对象的检测精度以及推理延迟都至关重要。

章节片段

目标检测方法

目标检测框架大致可以分为两阶段、一阶段和基于Transformer的方法。两阶段检测器(如R-CNN系列,Sun等人,2024年;Han等人,2024年)将区域提议和分类分开,仍然是强大的精度基准。一阶段检测器(包括YOLO和SSD系列,Diwan等人,2023年;Huang等人,2020年;Liu等人,2016年;Ge等人,2021年)在单次迭代中执行密集预测,并被广泛采用

基础检测器(RT-DETR)

RT-DETR是一个高效的端到端检测器,它继承了DETR的优点,同时实现了实时性能(Zhao等人,2024年)。该架构包括三个部分:主干网络、混合编码器和基于查询的并行解码器。
主干网络提取多尺度特征
混合编码器结合了自注意力和卷积融合。基于注意力的尺度内特征交互(AIFI)模块在每个尺度内应用高效的自注意力来建模

实验

我们在KITTI自动驾驶数据集和COCO 2017通用检测数据集上评估了改进的RT-DETR模型。首先描述了数据集、实现细节和评估指标,然后与主流方法进行比较,并提供了可视化结果,随后通过消融研究来评估每个组件的贡献。

结论与未来工作

在本文中,我们提出了FDE,这是一种用于复杂交通场景中目标检测的频域增强框架。通过将频率自适应注意力(FAA)、增强型频率动态卷积(EFDConv)和频率感知监督(FAS)集成到实时检测器中,FDE有效地减轻了低频偏置,并增强了对小目标、杂乱目标和遮挡目标的表示能力。在KITTI和COCO上的广泛实验表明

CRediT作者贡献声明

孙文彦:撰写 – 审稿与编辑,撰写 – 原稿,可视化,软件,方法论,调查,形式分析,数据整理,概念化。谢菲菲:撰写 – 审稿与编辑,撰写 – 原稿,验证,监督,资源获取,概念化。张玉轩:撰写 – 审稿与编辑,验证,监督。魏亮瑞:调查,数据整理。褚福正:验证,监督。唐晓宇:调查,数据

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了山东省自然科学基金ZR2021MD026)和山东省高等教育科学技术计划J18KA214)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号