
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于知识蒸馏的多尺度特征融合网络在航拍图像目标检测中的优化与应用
【字体: 大 中 小 】 时间:2025年06月28日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对航拍图像中小目标密集、遮挡严重及尺度差异大等难题,研究人员提出融合知识蒸馏的多尺度特征融合框架(MFF-KD),包含SAFFNet特征融合模块和EMSA注意力机制,结合CSAKD蒸馏方法,在VisDrone2019等数据集上实现AP50最高提升6.8%,模型参数量仅10.5M且推理速度达111 FPS,为轻量化高精度航拍检测提供新思路。
航拍图像目标检测长期面临小目标密集、遮挡和尺度差异等挑战,传统特征金字塔网络(FPN)虽能减少参数但精度有限,而Transformer等方法又因计算复杂度高难以落地应用。如何平衡模型效率与检测精度,成为该领域亟待突破的瓶颈。安徽理工大学的研究团队在《Engineering Applications of Artificial Intelligence》发表的研究中,创新性地提出MFF-KD框架,通过多尺度特征融合网络(MFF)与通道空间注意力知识蒸馏(CSAKD)的协同优化,在参数量仅10.5M的条件下实现111 FPS的实时检测,为航拍场景下的轻量化高精度检测提供了新范式。
研究团队采用三大核心技术:1)设计尺度感知特征融合模块(SAFFNet),通过双向路径聚合和MSFSF机制保留小目标特征;2)引入高效多尺度自注意力(EMSA)捕捉遮挡目标的间断特征;3)构建CSAKD蒸馏框架,指导学生模型(MFF-s)从教师模型(MFF-l)学习通道与空间注意力特征。实验基于VisDrone2019、DIOR和UAVDT三个公开航拍数据集验证。
【MFF网络架构】
SAFFNet模块通过双向特征金字塔和尺度感知池化(SAFP),将浅层细粒度特征与深层语义特征融合,使小目标检测AP50提升4.2%。EMSA模块采用分组卷积降低计算量,相比传统自注意力减少38%参数,对遮挡目标的检测召回率提高9.3%。
【CSAKD蒸馏策略】
通过通道注意力掩码(CAM)和空间注意力掩码(SAM)传递教师模型的关键特征,使学生模型在DIOR数据集上AP50达到83.4%,较基线提升3.5%,且参数量保持恒定。
【跨数据集验证】
在无人机跟踪数据集UAVDT上,MFF-KD的AP50达33.9%,较YOLOv8提升2.4%,证实其泛化能力。消融实验显示,单独使用SAFFNet可使模型参数量降低21%,而EMSA模块使遮挡目标检测精度提升7.8%。
该研究首次将知识蒸馏与多尺度特征融合结合应用于航拍目标检测,提出的SAFFNet和EMSA模块为轻量化设计提供新思路。尤其值得注意的是,CSAKD方法通过挖掘背景有效信息,使学生在有限参数下达到教师模型96%的精度。这项成果对无人机巡检、智慧城市等需要实时处理的场景具有重要应用价值,其方法论亦可拓展至医学影像分析等领域。研究团队指出,未来将进一步优化EMSA的计算效率,并探索跨模态知识蒸馏的可行性。
生物通微信公众号
知名企业招聘