基于Transformer与Mamba的多模态图像融合及笼养异常与死鸡检测方法研究

《Information Processing in Agriculture》：Multimodal abnormal and dead laying hen detection using transformer-based model

【字体：大中小】 时间：2026年01月19日 来源：Information Processing in Agriculture 7.4

编辑推荐：

　　本研究针对笼养蛋鸡生产中异常和死鸡检测在低光照、拥挤遮挡等复杂环境下准确率低的难题，提出了一种基于Transformer的多模态异常和死鸡检测方法。研究人员创新性地设计了MCIFusion-Mamba图像融合网络和优化的RT-DETR检测模型，通过融合可见光与热红外图像特征，显著提升了检测性能。实验结果表明，该方法对死鸡和异常鸡的检测精确度分别达到97.6%和98.1%，为精准畜牧业发展提供了有效的自动化监测方案。

在商业化笼养蛋鸡生产中，及时准确地监测鸡群健康状态，特别是识别异常和死亡个体，是保障动物福利和提高生产效益的关键环节。然而，实际养殖环境中的诸多挑战，如鸡群高密度饲养造成的严重遮挡、鸡舍内光照条件不理想，以及死鸡与休息状态的健康鸡在表型上难以区分等，使得基于传统可见光图像的自动化检测方法面临巨大困难。单一模态的图像信息在应对这些复杂场景时往往显得力不从心，导致误检和漏检率居高不下。为了解决这一行业痛点，研究人员将目光投向了多模态融合技术，旨在通过结合可见光图像丰富的纹理细节和热红外图像独特的温度分布信息，为鸡只状态识别提供更全面、更可靠的特征依据。

在此背景下，本研究团队开展了一项名为“基于Transformer模型的多模态异常和死鸡检测”的研究，相关成果发表在《Information Processing in Agriculture》期刊上。该研究的核心目标是开发一套能够适应实际鸡舍复杂环境的高精度、高效率异常与死鸡检测系统。为了达成这一目标，研究工作主要围绕两个核心环节展开：一是如何实现可见光与热红外图像的高质量融合，二是如何构建一个强大的目标检测模型来准确识别融合后的图像中的目标。

在图像融合环节，研究人员提出了一种名为MCIFusion-Mamba的创新方法。该方法首先利用相机参数进行初步的图像配准，以消除不同模态图像间因拍摄角度、位置差异带来的不对齐问题。随后，设计了一个基于Mamba架构的融合网络。Mamba是一种基于状态空间模型（State Space Model）的新兴架构，因其在长序列建模方面的卓越计算效率和性能而被选用。该融合网络不仅包含卷积神经网络（CNN）模块来提取浅层特征，还引入了Mamba模块来捕获更深层次的图像特征。特别地，研究还设计了一个空间注意力模块，该模块能够通过Mamba网络和循环神经网络（RNN）实现四个方向上的全局空间特征感知，从而实现可见光与热红外图像模态信息的互补性融合。此外，还设计了一个新颖的融合损失函数，该函数同时考虑了图像的结构相似性、纹理、强度和目标显著性，确保融合后的图像既能保留可见光图像的结构纹理特征，又能融入热红外图像的强度信息，并且能更好地突出图像中的显著目标（即鸡只）。实验证明，MCIFusion-Mamba在定性和定量评估上均优于其他先进的图像融合方法。

在目标检测环节，研究基于RT-DETR模型进行改进，提出了一个适用于多模态图像的检测模型。RT-DETR本身是一种基于Transformer的端到端目标检测器，无需预定义锚框或非极大值抑制（NMS）后处理，简化了流程。针对笼养鸡只状态（如站立、采食、休息、异常、死亡）导致的目标尺度变化显著的问题，研究人员在编码器中重新设计了跨尺度特征融合（CCFF）结构，引入了深度特征金字塔模块（DFPM, Deep Feature Pyramid Module），以更好地处理不同大小鸡只的特征。为了降低模型计算成本并实现更好的尺度内特征交互，在基于注意力的尺度内特征交互（AIFI, Attention-based Intra-scale Feature Interaction）模块中引入了高效加性注意力（Efficient Additive Attention）机制，用线性的逐元素乘法替代了Transformer中自注意力（Self-Attention）的二次复杂度矩阵乘法，显著提升了计算效率。同时，为了增强CNN主干网络对深层特征信息的提取能力和全局上下文感知能力，特别是提升模型对暗光条件下鸡只轮廓差异和死鸡语义信息的理解，在主干网络中引入了视觉状态空间（VSS, Visual State Space）模块。最终形成的检测模型在保持较快推理速度（每张图像约14.3毫秒）的同时，实现了优异的检测性能。

本研究使用的数据通过一个集成了可见光相机和热红外相机的巡检机器人平台在广东潮州一个商业化蛋鸡场采集。数据集包含来自约30,000只鸡的图像，其中死鸡235只，异常鸡128只，图像按6:2:2的比例划分为训练集、验证集和测试集。

关键技术方法主要包括：基于相机参数的图像粗配准算法；MCIFusion-Mamba多模态图像融合网络（包含基于Mamba的融合网络和多元损失函数）；改进的RT-DETR检测模型（引入了DFPM模块、高效加性注意力机制和VSS模块）。

2.5. MCIFusion-Mamba

研究人员设计了MCIFusion-Mamba网络用于图像融合。该网络基于SuperFusion算法框架，能够同时训练配准和融合模型，对经过粗配准的图像进行精细配准后再进行融合。其图像配准网络通过基于神经网络的特征金字塔提取模块和流估计器估计可见光与热红外图像之间的双向形变场，实现更精确的配准。图像融合网络则利用Mamba架构的优势，通过浅层特征提取、深层特征提取、空间特征融合和融合图像重建四个阶段，生成融合图像。

2.5.2. 图像融合网络架构

融合网络的核心是利用Mamba模型（一种状态空间模型）强大的特征提取和长序列建模能力。浅层特征通过多个卷积层提取，深层特征则通过包含4个Mamba层的深度特征提取模块获取。空间特征融合模块（SFF）则进一步挖掘和整合不同模态域的域内和域间全局信息，它首先使特征通过空间注意力模块聚焦有效空间信息，再经过卷积层、块嵌入操作和两个Mamba块，接着将可见光和热红外特征在通道维度拼接，并利用RNN模块获取四个方向的全局感知，最后通过卷积层细化输出具有全局空间感知的特征图。

2.6. 异常和死鸡检测模型

检测模型以改进的RT-DETR为基础。针对笼养鸡只尺度变化大的问题，在编码器中设计了深度特征金字塔模块（DFPM）来重新设计跨尺度特征融合结构。为了降低计算成本，在AIFI模块中引入了高效加性注意力（EAA）机制。为了增强主干网络对全局上下文和高层语义信息的提取能力，将视觉状态空间（VSS）块引入到以ResNet-18为基础的主干网络中。

2.6.2. 深度特征金字塔模块

DFPM模块包含特征集成模块和融合特征提取模块。它接收三个不同尺度的特征，通过下采样（ADown模块）、上采样和卷积操作后进行通道拼接，然后使用四个并行的深度可分离卷积捕获多尺度上下文信息，并结合小核卷积提取的局部信息，最终输出融合了多尺度信息的特征。

2.6.3. 高效加性注意力

EAA机制用线性计算替代了标准自注意力中的二次复杂度计算，通过全局查询向量与键矩阵的元素级乘法编码全局上下文信息，在保持性能的同时显著降低了AIFI模块的计算复杂度。

2.6.4. 视觉状态空间块

VSS块采用多路径特征融合结构，通过线性嵌入层、深度可分离卷积、SiLU激活函数和SS2D模块（状态空间模型）等操作，能够有效提取长程依赖信息，弥补了CNN主干网络在全局感知方面的不足。

3. 结果

3.1. 图像融合网络性能

MCIFusion-Mamba在结构相似性（SSIM）、峰值信噪比（PSNR）、信息熵（En）、互信息（MI）和视觉信息保真度（VIF）等多个评价指标上均优于对比方法（如MURF、UMF-CMGR、SuperFusion），并且推理速度更快。定性结果也显示，该方法能有效结合可见光图像的纹理细节和热红外图像的强度信息，在保留鸡只轮廓细节的同时，突出死鸡与活鸡的温度差异。

3.2. 不同模态图像对比实验

对比实验表明，多模态融合图像的检测性能整体优于单一可见光或热红外图像。可见光图像凭借丰富的颜色和纹理特征，通常优于热红外图像。而多模态图像融合了两种模态的优势，在低光照和拥挤遮挡条件下表现出更好的检测性能，显著降低了误检和漏检。

3.3. 不同目标检测模型对比实验

与Faster R-CNN、RetinaNet、TOOD、YOLOX-s、YOLOv9s、YOLOv10s以及原始RT-DETR-R18等先进模型相比，本研究提出的检测模型在死鸡和异常鸡的检测上取得了最佳性能。对于死鸡类别，精确度（Precision）达到0.976，召回率（Recall）达到0.958，mAP@0.5达到0.968；对于异常鸡类别，精确度达到0.981，召回率达到0.961，mAP@0.5达到0.951。模型在应对拥挤、遮挡和暗光等复杂场景时也表现出更强的鲁棒性。

3.4. 消融实验

消融实验逐步验证了DFPM模块、高效加性注意力（EAA）和VSS模块的有效性。实验结果表明，DFPM模块通过其金字塔结构更好地处理了目标尺度变化；EAA在降低计算成本的同时提升了模型整体性能；VSS模块的引入则进一步增强了模型对深层语义信息和全局上下文的理解能力，最终使模型性能达到最优。

研究结论表明，本研究成功提出并验证了一种基于Transformer和Mamba的多模态图像融合与检测方法。该方法通过创新的MCIFusion-Mamba融合网络，有效解决了可见光与热红外图像在复杂鸡舍环境下的配准与融合难题，生成了特征更丰富、目标更显著的融合图像。进而，通过针对性地改进RT-DETR检测模型（引入DFPM、EAA、VSS等模块），显著提升了对笼养异常和死鸡的检测精度和鲁棒性。该研究不仅为畜禽健康状态自动化监测提供了高效可靠的技术方案，其提出的图像配准融合方法及模型优化策略也对其他农业领域的多模态感知任务具有重要的参考价值。这项工作有力地推动了精准畜牧业（Precision Livestock Farming, PLF）向智能化、自动化方向的发展。

热点排行