基于全局注意力机制与迁移学习的气体云团检测模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Optics & Laser Technology》：Gas cloud detection model based on global attention mechanism and transfer learning

【字体：大中小】 时间：2026年04月02日 来源：Optics & Laser Technology 4.6

编辑推荐：

　　由于大多数危险气体在可见光谱中呈透明状态，红外成像（IR）对于检测而言不可或缺。然而，在复杂工业环境中，由于气体云团边界不规则，该方法面临较高的误报率。为应对复杂工业环境中由气体云团不规则边界引起的检测困难及高误报问题，本文提出一种改进的移动流体边界YOLO（

由于大多数危险气体在可见光谱中呈透明状态，红外成像（IR）对于检测而言不可或缺。然而，在复杂工业环境中，由于气体云团边界不规则，该方法面临较高的误报率。为应对复杂工业环境中由气体云团不规则边界引起的检测困难及高误报问题，本文提出一种改进的移动流体边界YOLO（MFB-YOLO）。该算法构建于YOLOv8框架之上，并引入三项关键增强以捕获动态气体云团特征。首先，采用红外-可见光图像融合，以稳健地区分瞬态气体云团与人员等稳定干扰源。其次，针对传统静态注意力机制在流体目标上的局限性，研究人员提出一种新型全局注意力机制（GAM）。GAM通过动态权重分配协同整合通道注意力与空间注意力，优先关注气体主导区域，显著提升对流体边界的适应能力。第三，为解决由扩散动态性与数据稀缺性引发的泛化瓶颈，研究人员整合了结合迁移学习与时间序列分析的策略。该策略使模型能够从大规模富数据领域继承稳健特征表示，同时捕获气体形态连续的时空演化。基于1,1-二氟乙烷的实验结果表明，改进的MFB-YOLO实现了93%的精确率（Precision）和89%的mAP50，显著优于基线模型。尽管推理速度略增至每样本0.09 s，但仍明显快于图像采集间隔，从而保证了实时性能。该研究为非固定形状气体云团的高精度检测提供了一种稳健且具工业应用可行性的解决方案。

该文发表于《Optics》，围绕复杂工业场景下危险气体云团的高精度实时检测问题，提出了一种融合多源成像、全局注意力机制（GAM）与迁移学习（TL）的改进型移动流体边界检测框架（MFB-YOLO）。研究背景在于，危险气体多在可见光波段透明，传统可见成像难以直接识别，而红外成像（IR）虽可利用目标与背景之间的辐射差异实现远距离非接触探测，但在真实工业环境中仍面临显著限制：一是气体云团呈无定形流体特征，边界模糊、扩散性强、热对比度低，导致传统目标检测方法难以稳定提取形态特征；二是复杂背景中存在车辆、人员、热设备、金属反射等动态热杂波，极易与气体在红外图像中的响应混淆，从而产生较高误报；三是高质量标注红外气体数据集匮乏，制约深度学习模型的泛化能力；四是若仅将气体视为静态目标进行逐帧识别，则难以刻画其随时间连续扩散的运动学演化规律。正因如此，开展面向“移动流体边界”的检测研究，对于提升工业安全监测、危险泄漏预警和红外气体成像识别技术的实用化水平具有重要意义。

在这一背景下，研究人员以YOLOv8为基础框架，提出改进型MFB-YOLO，将气体云团识别由“静态形状匹配”转向“动态流体过程识别”。该研究首先从红外气体探测物理机理出发，梳理了基于辐射传输理论的气体透过率反演思想，指出单纯依赖透过率拟合与单帧图像处理不仅计算量大，而且难以抑制误警。因此，研究人员进一步引入红外-可见光融合，通过可见光图像提供场景结构与刚性目标语义先验，与红外图像中的热异常信息形成互补，以降低“同谱异物”现象造成的误报。随后，针对常规注意力机制难以适应气体云团边界持续变化的问题，研究人员在检测网络颈部（neck）设计并嵌入全局注意力机制（GAM），通过通道与空间双分支协同建模，实现对气体主导区域的动态加权与背景噪声抑制。进一步地，为缓解红外样本稀缺带来的泛化瓶颈，研究人员利用可见光烟雾数据集进行源域预训练，再通过迁移学习将烟羽扩散边界的形态先验迁移至红外气体任务，并结合长短期记忆网络（LSTM，长时程依赖建模结构）开展时序预测，使模型不仅能够识别单帧中的气体存在，还能表征其形态随时间的连续演化。最终，在1,1-二氟乙烷泄漏场景与IIG数据集上，改进模型均表现出优于多种对比方法的检测效果，证明该策略在复杂工业监测中的鲁棒性、实时性与应用潜力。

本研究主要采用以下关键技术方法：首先，基于尺度不变特征变换（SIFT）实现红外与可见光图像配准，构建像素级融合输入；其次，以YOLOv8为基础，使用轻量化C2f模块和空间金字塔池化快速层（SPPF）进行多尺度特征提取，并在neck中嵌入GAM进行特征重标定；再次，采用迁移学习策略，在Smoke100k可见光烟雾数据集上预训练，并以1000张自采集HFC-152a红外泄漏图像进行目标域微调；同时，将特征向量组织为时序序列并输入LSTM，建模气体扩散的时间依赖性；最后，在IIG数据集与中国科学院怀来遥感综合实验站1,1-二氟乙烷现场泄漏样本上进行验证。

以下结合正文结构对研究结果进行概括。

2.1. Infrared gas detection principle
该部分系统阐述了红外气体检测的理论基础。研究人员基于辐射传输理论，建立了视场（FOV）内环境、气云与背景之间的辐亮度传输关系，并将多层大气-气体传播过程简化为三层传输模型。在近地近距离观测条件下，通过进一步近似，得到气体云团透过率的求解形式，并结合标准气体数据库中的吸收截面与透过率谱，实现气体种类与柱浓度的反演。该部分说明了红外成像识别气体云团的物理依据，也指出了基于透过率拟合的传统方法存在计算量大、处理耗时长的问题，构成采用深度学习方法进行快速定位的理论前提。

2.2. Infrared-Visible image registration and fusion
该部分说明了红外图像误报率高的重要原因在于纹理不足以及背景热源与气体目标在形态上的相似性。为弥补红外模态在结构语义上的不足，研究人员引入可见光信息，以刚性边界和材料外观约束红外异常区域的判别，并通过SIFT算法进行跨模态配准。由于实验系统中红外与可见相机的相对几何位置固定，配准仅需实验前执行一次，因此SIFT虽计算量较大，但在该应用条件下具有可行性。研究人员在20 m与70 m条件下分别开展1000组图像匹配实验，平均正确匹配率达到90.2%和95.7%，表明该配准方法满足气体云团与固定边界干扰目标区分的需求。该结果支持了后续多源融合输入的可靠性。

2.3. Principles of gas cloud identified using deep learning
该部分介绍了YOLO用于气体云团检测的基本原理。研究人员指出，气体在特定光谱带上引起的辐亮度差异可被深度学习模型重构为单阶段回归任务，通过整幅图像联合建模保留全局上下文，有利于在复杂背景下识别无固定形状目标。文中给出了网格划分、边界框回归及坐标损失的基本形式，说明网络通过多层卷积可学习从低层边缘到高层语义的层级特征，从而在一定程度上抑制来自管道、车辆等刚性热目标的干扰。该部分为后续改进算法结构提供了方法学基础。

3.1. Gas cloud feature extraction module based on GAM
该部分是方法创新的核心之一。研究人员构建了由通道注意力子模块和空间注意力子模块组成的GAM。在通道维度上，由于红外气体图像基本不含RGB颜色信息，通道注意力不再服务于颜色校准，而是转向对形态变化敏感特征通道的动态强化。通过多层感知机（MLP）保留三维交互信息，模型能够更加关注表征气体边界连续演化的深层通道。在空间维度上，考虑到气体云团呈弥散状且边界不稳定，研究人员采用两个7 × 7大卷积核扩大感受野，避免小卷积核过度聚焦局部噪声像素。该模块生成空间权重图，对“气体主导”区域赋予更高权重，对工业背景中的阀门、管道等非流体区域降低响应。值得注意的是，GAM并未部署在主干网络（backbone）而是引入到neck阶段，原因在于骨干阶段直接施加注意力可能同步放大红外随机噪声，而在特征融合阶段施加全局注意可更有针对性地增强气体特征集成能力。该设计最终提升了边界拟合与检测精度。

3.2. Multisource gas cloud image and time series prediction based transfer learning mechanism
该部分针对样本稀缺与动态扩散过程建模不足的问题提出解决策略。研究人员将主干网络提取的高维特征表示组织为时间序列X={x₁, x₂, ..., x_t}，并输入LSTM，以缓解传统循环神经网络（RNN）在长序列训练中的梯度消失问题。LSTM通过联合处理当前输入x_t与前一时刻隐藏状态h_t-1，编码气体扩散的累积运动学信息，再通过输出层生成下一帧预测状态y_t+1。这一机制使检测不再依赖单帧静态证据，而是结合时序连续性验证目标一致性。与此同时，研究人员从流体力学角度论证了可见光烟雾与红外气体扩散在动量守恒规律上的一致性，指出二者均受相似的边界涡旋、Rayleigh-Taylor不稳定性与扩散演化控制，因此可将可见烟雾中的形态先验迁移到红外气体识别任务中。具体实施上，模型先在Smoke100k数据集上预训练，冻结前四层骨干权重以保留通用边缘提取能力，并在neck输入端设置线性模态适配层以对齐红外亮温梯度与预训练特征分布，之后再使用1000张自采集HFC-152a红外泄漏图像以10^-5学习率微调。文中进一步通过不同距离样本的比较实验指出，只有当气体云团占据约7 × 7像素或以上空间范围时，识别效果才较为可靠，其中4像素区域可实现“发现”，主方向至少8像素才可支持稳定“识别”。这一结果明确了迁移学习策略与图像空间分辨率之间的适用边界。

3.3. Improved MFB-YOLO model based on GAM and TL
该部分综合描述了改进型MFB-YOLO整体架构及其消融验证。研究人员选用YOLOv8而非YOLOv9、YOLOv10等更新版本，理由是YOLOv8具有更好的模块化、硬件兼容性及在高噪声红外数据下的稳定性。整体结构上，模型在backbone中以C2f替代传统C3模块，并在末端加入SPPF整合多尺度上下文；在neck中构建基于C2f的GAM模块（C2f_GAM），联合通道与空间注意力强化气体边界定位。为了评估各模块贡献，研究人员设计了14组消融实验，比较通道注意力、空间注意力、图像融合与迁移学习的不同组合。结果表明，完整配置Improved MFB-YOLO-TL表现最佳，精确率为91.7%，召回率为84.1%。与无迁移学习版本相比，精确率提升9.3%，虽召回率略降2.1%，但误报显著减少，说明迁移学习对提升模型可靠性至关重要。简化版本虽然在召回率上有时更高，但精确率下降明显，反映出过预测倾向。由此可见，GAM、双模态融合与迁移学习之间存在明确协同效应。

4.1. Model training and simulation experiment
该部分汇报了训练环境、数据来源及仿真实验结果。模型基于Python 3.7与PyTorch 2.2.2实现，在RTX 2060 12G GPU与CUDA 12.7环境下训练约6 h 30 min。可见光预训练图像主要来自Smoke100k公共数据集，标注使用LabelImg完成，并由两名资深研究人员交叉校核边界框。之后，训练得到的Improved MFB-YOLO在IIG数据集的IIG segmentation子集上进行验证。研究人员认为IIG数据集包含复杂工业背景及高保真像素级标注，适于评估模型鲁棒性与泛化能力。定量结果显示，模型在该基准上平均精确率达到0.87，召回率0.92，mAP:50为0.88，说明该框架具备较强的气羽定位能力。研究人员还观察到，当训练样本量约为1600张时模型性能最优，这与随机缩放、色调扰动、物理遮挡模拟等数据增强策略以及迁移学习带来的预训练结构特征迁移共同相关。

4.2. Field experimental and analysis of results
该部分给出了现场实验设计与核心性能结论。研究人员在中国科学院怀来遥感综合实验站开展1,1-二氟乙烷（C₂H₄F₂）排放实验，在相对湿度92%、温度24°C、平均水平风速3.6 m/s条件下，将排放系统设置于屋顶并保持0.1 L/min恒定流量，红外高光谱探测设备布设在距泄漏源约70 m处，对1080 cm^-1波段图像进行识别。结果显示，在红外-可见融合条件下，1,1-二氟乙烷气云具有较清晰可辨识特征，可作为算法测试样本。与MFB-YOLO、Faster R-CNN、YOLOv5、YOLOv7、YOLOv8、YOLOv9、YOLOv10和YOLOv11相比，改进模型在1000个测试样本上取得最佳综合表现：Precision为93%，Recall为88%，mAP50为89%。相比原始MFB-YOLO，精确率提升3%，mAP50提升5%。虽然其计算量为363.3 GFLOPs，单样本推理时间为0.09 s，高于YOLOv10与YOLOv11等轻量模型，但仍显著低于3 s的红外图像采集间隔，因此完全满足实时监测要求。另一方面，YOLOv10和YOLOv11虽然运算更轻、推理更快，但mAP50分别仅为54%和64%，表明其难以有效定位弥散气体边界，难以满足该类任务对精度的要求。

讨论部分表明，该研究的主要贡献不在于单纯堆叠检测模块，而在于针对气体云团“非刚体、弱边界、强时变”的物理属性重构了识别范式。研究人员通过引入多光源约束、时序一致性分析与全局注意机制，将工业背景中的瞬态热干扰与真实气体扩散过程区分开来。GAM相较SE、ECA与CBAM等注意力模块的优势在于能够更充分保留空间-通道交互信息，并避免全局池化或串行处理导致的边界细节弱化，因此更适合无定形流体目标。消融实验进一步证明，迁移学习在有限红外样本场景下对提升精确率和降低误报具有决定性作用，而图像融合与空间注意力则加强了对复杂背景下目标边界的识别稳定性。整体而言，该研究实现了红外气体检测由物理可视化向智能识别、由静态判别向动态建模的推进。

结论部分可译述为：本研究提出的改进型MFB-YOLO算法以红外-可见光融合图像作为训练与识别基础，通过在检测颈部集成全局注意力机制（GAM），借助双模态融合显著增强了气体云团特征提取能力。详细消融研究验证了各模块的具体贡献。针对1,1-二氟乙烷的现场实验表明，该算法具有良好的鲁棒性与优越性能。具体而言，所提模型实现了93%的精确率（Precision）和88%的召回率（Recall），较标准基线有明显提升；尤其mAP50达到89%，证实了其卓越的检测能力。尽管增强的特征提取使计算复杂度适度增加，单样本处理时间达到0.09 s，但仍远低于3 s的单帧红外图像采集间隔。因此，该系统能够在计算开销影响可忽略的前提下保证实时响应。上述结果证实，改进型MFB-YOLO算法有效协同了环境感知与气体识别，显著提升了红外成像气体检测技术的精度与实用性。

联系信箱：

粤ICP备09063491号

热点排行