一种多模态深度学习网络,用于精准检测母猪的发情期和假发情期

《Smart Energy》:A Multimodal Deep Learning Network for Precise Detection of Estrus and Pseudo-Estrus in Sows

【字体: 时间:2025年08月07日 来源:Smart Energy 5

编辑推荐:

  精准的发情检测与适时配种对现代规模化养猪生产效率和经济效益的提升至关重要。然而,发情持续时间短且假发情行为常导致检测困难。本研究提出多模态融合模型Fusion-ConformerNet,通过动态加权机制整合改进的Conformer(引入Deep Norm层归一化)与EfficientNet-V2(集成Multi-Spectral Attention Module),并利用蒙特卡洛Dropout进行不确定性估计,实现自适应权重分配。实验表明,该模型在五阶段(早、中、晚发情,非发情,假发情)识别中达到97.65%的mAP、91.16%的Top-1准确率,显著优于单模态模型如DaViT、ResNet50等,并在复杂场景中展现出鲁棒性。

  在现代大规模养猪业中,准确识别母猪的发情阶段并及时进行配种是提高生产效率和经济效益的关键。然而,由于发情期较短且伪发情行为的存在,传统的单模态模型在复杂环境中往往难以实现准确识别。为了在复杂环境中实现精准识别母猪发情阶段,同时克服传统单模态模型的局限性,本研究提出了一种多模态融合模型——基于深度归一化和多频谱注意力增强的Conformer网络(Fusion-ConformerNet)。该模型通过动态的基于MC-Dropout的不确定性估计,结合了改进的Conformer和增强的EfficientNet-V2,实现模态间的自适应加权融合。实验结果表明,Fusion-ConformerNet在多模态母猪发情数据集上取得了97.65%的平均精度(mAP)、91.16%的Top-1准确率和91.12%的平均F1分数,显著优于其他单模态模型,如DaViT、ResNet50、Swin-Transformer、DenseNet、MobileNet-V3和VGG19。该模型能够准确区分五个阶段:早发情、中发情、晚发情、非发情和伪发情,其在复杂环境中的表现具有高度的稳健性,接近专家水平的发情识别准确率。Fusion-ConformerNet实现了对发情状态的可靠、持续监测,并为集约化养猪业提供了新的科学方法。

在母猪的发情识别过程中,识别其发情阶段和伪发情状态的准确性至关重要。发情期通常持续约48.4±1.0小时,而伪发情则是一种常见的繁殖障碍,症状与真正的发情相似,但母猪在此期间不会出现食欲下降,并且在没有排卵的情况下表现出发情行为。伪发情可能伴随各种健康问题,如影响繁殖计划,若误诊还可能导致阴道或子宫脱垂、流产或死产。多种因素可能导致伪发情,包括生理因素和环境因素。例如,怀孕母猪不会形成成熟的卵巢卵泡,因此不会产生雌激素,但胎盘会分泌少量,可能导致轻微的发情症状。此外,玉米赤霉烯酮(ZEN)中毒是伪发情的主要原因之一。ZEN具有促黄体作用,长期摄入含有ZEN的饲料会导致ZEN中毒,从而影响母猪的繁殖性能。研究指出,猪对ZEN极为敏感,当饲料中含有1-5 mg/kg的ZEN时,临床症状(伪发情)会出现。ZEN中毒会降低受孕率,增加早期胚胎死亡率,并可能导致卵巢萎缩、发情周期紊乱和疾病发生率增加。因此,伪发情的早期检测和干预对于维持生产效率至关重要。

传统的发情检测方法依赖于人工观察和公猪接触试验,如背压测试(BPT)。然而,这些方法不仅耗时费力,而且在现代大规模养猪场中难以实现自动化检测。为了实现自动化检测,研究人员探索了多种方法。例如,Haibo Zheng等人提出了FD-YOLOV5s模型,该模型通过红外图像提取母猪的阴户温度,实现自动化评估发情状态,为自动化发情监测奠定了基础。Cao等人提出了改进的MobileViT模型(UM-ASPP-MobileViT),通过识别母猪叫声的Mel频率倒谱准确判断母猪的发情阶段。Peng Chen等人提出了一种基于卷积神经网络(CNN)的声音识别方法,已在实际农场应用中显示出有效性。Kaidong Lei等人则开发了一种智能移动发情检测系统,该系统使用仿生公猪模型模拟公猪的声音、气味和触觉,通过DBN、SAE和SVM分析母猪的互动行为,以检测断奶母猪的发情状态。经验丰富的猪场专家通常结合阴户外观、发声和行为特征进行综合评估。然而,单一模态方法在识别母猪发情阶段时存在信息局限,可能在遮挡、光照变化或噪声干扰的情况下导致性能下降甚至模型失效。

为克服单一模态方法的局限性,许多研究者开始探索多模态融合。多模态融合在情感识别中已有经典应用。例如,Chenquan Gan等人提出了多模态融合网络(MFN),以解决传统视觉-文本情感分析中的异质性和同质性问题。Hongbin Wang等人提出了一种名为MAMSA的多模态情感分析模型,利用多注意力机制动态提取跨模态的共享信息,并引入情感引导机制以增强与情感相关的特征表示,显著提高了多模态情感识别的准确性。Seyed Sadegh Hosseini等人开发了一种基于音频、文本和视频数据的多模态情感识别模型,实现了82.9%的准确性。Vishal Chudasama等人提出了M2FNet,一种利用多头注意力机制集成视觉、音频和文本情感特征的多模态融合网络,用于情感分析。Shuai Liu等人构建了一种基于LSTM的情感识别模型,其在MELD和IEMOCAP数据集上实现了最优性能。随着人工智能和深度学习的迅速发展,多模态融合已扩展到众多领域。例如,Mujun Liu等人开发了一种双分支多模态融合网络,以提高胎儿缺氧检测的准确性,结合母胎医学与AI,支持胎儿酸中毒识别。Sotubadi等人开发了一种多模态可解释神经网络方法,通过结合工具图像和加工过程的时间序列数据,提高了模型的可解释性。在养猪业和动物福利领域,Zhong Zhen等人提出了NSST-GF-IPCNN,一种用于母猪分割的多源图像融合方法,实现了主流算法2.102%–4.066%的性能提升。Zhong等人还开发了MCNN,一种基于CNN的多尺度融合模型,用于母猪图像分割和温度检测,相比传统方法显示出1.883%–7.170%的准确率提升,为精确母猪温度测量提供了基础。Yanling Yin等人通过结合音频和图像特征,使用软投票机制聚合SVM分类器的输出,提高了猪咳嗽识别的准确性,达到了97.47%和99.20%的准确率,显著增强了猪咳嗽声音的识别能力。

本研究提出了一种多模态融合模型Fusion-ConformerNet,该模型整合了母猪在真实和伪发情状态下的发声和阴户特征。该模型结合了改进的Conformer和EfficientNet-V2,通过动态融合实现准确的发情检测,为人工授精提供决策支持。该研究的主要贡献如下:

1. **系统分析母猪在自然发情和伪发情期间的生理和表型症状**,创新性地将发情期划分为早期、中期和晚期,并建立了一个包含发声和图像数据的多模态数据集。
2. **引入深度归一化技术(Deep Norm)**,以增强Conformer结构,同时在EfficientNet-V2中集成多频谱注意力模块(MSAM),以提升模型的整体性能。
3. **采用基于蒙特卡洛Dropout(MC-Dropout)的不确定性估计方法**,预测模型的稳定性和置信度,从而实现自适应动态加权。融合后的模型在模态干扰或失效的情况下,仍能可靠地识别五种发情状态,显著提高了模型的稳健性和适应性。
4. **在实际采集的多模态数据集上进行了比较实验**,并结合现实部署,验证了所提出方法的优势和在生产环境中的实际可行性。

本研究的数据采集工作在山西省晋中市汾西县永安镇下山村的一家养猪场进行。该养猪场的每个母猪繁殖区均配备30个独立的母猪栏位,每个栏位的尺寸为2.1m?×?0.65m?×?1.1m。在数据采集过程中,选择了28头约克夏母猪(大型白猪,Sus scrofa domesticus),这些母猪年龄在6-7个月之间,确保每头母猪的完整发情周期被记录。其中6头母猪被喂食含有玉米赤霉烯酮的饲料,以诱导伪发情。数据采集时间从2023年6月至9月,目标是6-7个月龄的母猪,因为它们的生殖器官已完全发育,具备正常的繁殖能力。

为了减少相邻图像帧之间的过度相似性,使用结构相似性指数(SSIM)过滤出高度相似的图像。此外,一些极端情况也被手动排除,包括因物体或尾巴遮挡而导致完全遮挡的阴户图像,以及因背景噪音过多或缺乏发声而导致目标母猪叫声模糊的音频片段。通过应用自适应噪声减少算法(Spectral Gating)对音频进行预处理(见图2),并将较长的音频片段分割为2秒的片段。为了增强数据多样性,预处理后的图像和音频被扩展了四倍,最终形成一个包含7,616张图像和7,464个音频片段的多模态数据集。数据集的分布如表1所示。为了便于理解,五种发情阶段——发情前期、发情中期、发情后期、非发情期和伪发情期,分别被标记为Preoestrus、Midoestrus、Lateoestrus、Notoestrus和Pseudoestrus。图3展示了多模态母猪发情数据集的部分数据。

在本研究中,为了提高Conformer和EfficientNet-V2的性能,引入了深度归一化(Deep Norm)技术。该技术旨在通过平衡预归一化(Pre-Norm)和后归一化(Post-Norm)的优势,稳定深度Transformer的训练过程。Conformer的Transformer分支采用Pre-Norm,通常在深度模型中增强稳定性。然而,Pre-Norm在低层通常生成比高层更大的梯度,限制了其在需要层间交互的任务中的有效性。Post-Norm则通过加速网络训练来促进更快的收敛,但其在输出层附近容易引入不稳定性(Aohan等人,2022)。本研究对Conformer的层归一化进行了改进和评估,以更好地适应发情检测任务中多样化的发声特征,同时提高模型的稳定性和性能。Pre-Norm和Post-Norm的结构如图4所示。

EfficientNet-V2在母猪发情识别中存在一定的局限性,尤其是在处理阴户细微变化时。原始的SE模块仅能捕捉粗粒度的通道特征,缺乏提取动态和细粒度信息的能力,导致其在建模阴户变化的连续性和细微性方面表现不足。为此,本研究对EfficientNet-V2进行了针对性改进,引入了多频谱注意力模块(MSAM),以增强其特征提取能力。MSAM通过结合二维离散余弦变换(2D-DCT)扩展了全局平均池化(GAP),丰富了通道注意力的信息,解决了传统通道注意力机制在信息不足方面的不足。MSAM的处理过程可以总结为:首先将输入分区为多个部分,沿通道维度进行分割。然后,对于每个部分,计算其2D-DCT频率成分,作为通道注意力的预处理步骤。该过程如公式(2)所示。随后,将这些频率成分通过Concat操作整合,形成丰富的特征表示。整个多频谱通道注意力机制如公式(4)所示。通过这种多频谱框架,网络能够从冗余通道中提取额外的特征,将更全面的信息嵌入通道注意力机制中。MSAM的结构如图7所示。

为了提高模型对母猪阴户在发情期细微空间变化的敏感度,本研究引入了多频率多尺度注意力(MFMSA)模块,该模块设计用于同时捕捉尺度和频率维度上的判别特征,灵感来源于人类视觉系统对多尺度和多频率线索的协同感知能力。MFMSA架构包括一个尺度分解模块、一个多频率通道注意力模块和一个多尺度空间注意力模块。其中,第一个组件旨在捕捉不同尺度下阴户肿胀的结构特征,而后者两个组件分别增强频率和空间域中的关键响应并抑制冗余信号。与仅考虑通道注意力或局限于空间建模的注意力机制相比,MFMSA整合了频率多样性和尺度变化,提高了模型对阴户体积细微变化的感知能力。MFMSA模块的网络结构如图8所示。

为了在多维空间中实现更准确的特征提取,本研究引入了多维协同注意力(MCA)模块,这是一种轻量级机制,能够在低计算成本的前提下高效探索通道、高度和宽度维度之间的交互,从而提升特征表示能力。MCA模块由三个协调分支组成:通道、高度和宽度。每个分支通过全局平均池化和标准差池化提取响应信息,提高描述能力。融合后的特征通过门控2D卷积生成注意力权重。所有三个分支的输出随后进行平均,生成优化后的特征图。MCA模块的结构如图9所示。

为了在实际应用中提高模型的鲁棒性,本研究采用了基于MC-Dropout的不确定性估计方法,以动态调整权重,实现改进的EfficientNet-V2和Conformer模型的融合。MC-Dropout是一种常见的正则化技术,旨在防止神经网络过拟合。在深度学习中,MC-Dropout在训练和推理过程中都应用,以估计不确定性。通过多次随机前向传播,MC-Dropout能够估计模型输出的不确定性。作为贝叶斯神经网络的一种近似方法,MC-Dropout通过更简单、可扩展的方式模拟参数不确定性下的概率推理。与其它不确定性融合方法相比,MC-Dropout具有高效、易于实现且无需复杂后处理的优势。其“采样前向传播”方法能够将不确定性直接传递到融合层,这对于母猪发情检测的实时需求至关重要。此外,MC-Dropout对“样本不确定性”在识别任务中更为敏感,这使其能够很好地适应复杂场景中的多模态变化,相比之下,贝叶斯方法依赖于大量的先验知识来提高推理准确性。

在本研究中,MC-Dropout不确定性被引入决策过程,以动态调整权重,实现改进的EfficientNet-V2和Conformer模型的融合。其核心思想是使用MC-Dropout对同一输入进行多次预测,生成输出分布以模拟参数不确定性(即知识不确定性)。通过分析这些分布,我们计算预测的平均值和方差,以评估模型的稳定性和置信度,从而为每个模态分配权重。融合过程如下:

首先,图像和声音数据各自通过T次(T=5)前向传播生成概率向量,分别表示为P_image(t)和P_audio(t)。接着,通过计算这些概率向量的平均值和方差,得到图像和声音模型的置信度。随后,根据置信度确定融合权重,如公式(7)所示。最后,根据动态权重对图像和声音模型的概率均值进行加权融合,得到最终预测概率P_final,如公式(9)所示。通过这种方式,置信度较高的模型(不确定性较低)在最终决策中获得更大的权重,从而减少低置信度模型对最终结果的影响。这有助于降低极端情况下不可靠的单模态数据对模型性能的影响,提高模型在复杂场景中的稳健性和可靠性。Fusion-ConformerNet的完整架构和流程如图10所示。

为了全面评估Fusion-ConformerNet的性能,它被与Deep-Conformer、MSAM-EfficientNet-v2以及其他可比较模型(如DaViT、ResNet50、Swin-Transformer、DenseNet、MobileNet-v3和VGG19)在多模态母猪发情数据集上进行了比较。其中,Deep-Conformer、DaViT、ResNet50和Swin-Transformer被应用于音频分类任务,而MSAM-EfficientNet-v2、DenseNet、MobileNet-v3和VGG19则被应用于图像分类任务。图13展示了每种算法的训练迭代曲线,而表7总结了详细的实验结果。

从表7的结果来看,Fusion-ConformerNet在Top-1准确率、平均精度、平均召回率、平均F1分数和mAP指标上均优于其他模型。例如,与单模态音频分类模型Deep-Conformer相比,Fusion-ConformerNet的Top-1准确率提高了5.86%,mAP提高了2.17%;与单模态图像分类模型MSAM-EfficientNet-v2相比,Top-1准确率提高了3.01%,mAP提高了2.69%。这些结果表明,Fusion-ConformerNet在多模态融合策略下,能够更准确地识别母猪的发情阶段,从而显著提升模型的性能。然而,由于采用后期融合方法,Fusion-ConformerNet的推理速度较慢,约为47.48 ms/帧,如表7所示。这可能限制了其在实时应用中的性能,因此需要进一步研究和优化。

为了进一步验证Fusion-ConformerNet在实际养猪场环境中的性能和可行性,研究团队在山西省忻州市偏关县的富国生态育种合作社部署了一个简化的多模态发情监测系统。该系统框架如图16所示,数据采集细节如表10所示。验证过程包括以下步骤:

1. **采样**:每隔30分钟,安装在猪舍中的摄像头(型号:MJSXJ07HL)和麦克风(型号:ULANZI-V6)同时捕捉母猪的阴户图像和发声。每个采样持续1-3分钟。在此期间,手动采集血液样本以测量LH、FSH和P4水平,这些数据作为判断母猪发情状态的唯一参考。
2. **数据处理和推理**:网关设备在时间上同步音频和视觉数据,过滤模糊和重复的图像,并对音频进行降噪处理。预处理后的数据无线传输至实验室服务器。音频被分割为2秒的片段,相应的图像帧被提取,形成图像-音频对。每对数据输入Fusion-ConformerNet进行发情预测(在融合策略中,T设置为5)。
3. **专家评估**:山西农业大学兽医学院的专家基于母猪的行为线索(如站立反射)和表型特征进行发情状态评估。模型的预测结果与专家评估进行对比。为了便于分析预测差异,图17展示了模型和专家判断的归一化混淆矩阵。

从图17的分析来看,模型在发情前期和发情后期之间存在明显的分类错误。在图17(a)中,5%的真实发情后期样本被错误分类为发情前期,而6%的发情前期样本被错误分类为发情后期。专家也出现了类似的错误,但程度较轻。这种混淆可能源于这两个阶段在生理上的相似性,如阴户肿胀和颜色变化的细微性,以及发声模式缺乏明显的过渡。因此,准确分类这两个阶段仍然具有挑战性。相比之下,专家在非发情和发情中期的识别表现较为准确,几乎没有任何误分类。这可能与非发情和发情中期的特征差异较大有关,例如非发情期母猪的阴户颜色较浅,而发情中期的阴户颜色较深,肿胀达到高峰,并伴有透明黏液分泌。这些特征在图像和音频数据中均较为明显,有助于准确分类。

尽管Fusion-ConformerNet在发情识别中表现优异,但其在实际应用中仍面临一些挑战。首先,所有训练数据均来自大型白猪,而发情周期、持续时间和行为特征可能因年龄、胎次、品种和公猪接触等因素而有所不同,这些因素可能在不同程度上影响模型的性能。因此,需要进一步的实验和实际验证来量化其具体影响。其次,Fusion-ConformerNet依赖于高分辨率摄像头、麦克风和计算基础设施等专用硬件,这可能在小规模和中等规模农场中存在经济可行性问题。传统的人工发情检测方法因其简单性、可靠性和低成本,仍然被广泛使用,限制了自动系统在这些农场中的采用动机。然而,对于拥有经验丰富的繁殖专家的农场,自动系统可能不会带来显著的附加价值,而大规模自动化农场则更有可能受益于Fusion-ConformerNet在减少劳动密集型监测方面的效率。因此,为了促进Fusion-ConformerNet在现代养猪业中的广泛应用,需要开发更具成本效益的实施策略、用户友好的系统设计以及与现有繁殖管理实践的无缝集成。

此外,模型参数对性能的影响也值得关注。虽然Fusion-ConformerNet的检测精度显著高于其他算法,但其推理速度有所下降,约为47.48 ms/帧。推理速度下降的主要原因有两个:首先,由于采用了决策层融合,两个模型独立进行特征提取,这并未减少每个模型的推理计算量;其次,融合策略采用了MC-Dropout进行不确定性估计,通过T次前向传播模拟参数不确定性并估计模态权重,使用这些T次推理的概率向量均值和方差作为不确定性估计的基础。T的选择显著影响推理速度。在本研究中,T被设置为5,以在实验和验证中获得良好的准确率、召回率和稳健性。然而,不同的T值可能影响不确定性估计和推理效率,因此需要进一步研究和定量分析T对性能的影响。因此,未来的研究应探索最优T设置及其在不同任务中的适应性。

总体而言,考虑到母猪的平均发情期为48±1小时,Fusion-ConformerNet的推理速度为47.48 ms/帧,对母猪的受孕率影响微乎其微,并满足实际应用中的实时推理需求。该模型的真正价值在于其更高的准确率和稳健性,这有助于减少误报和漏报,从而降低与发情阶段识别相关的劳动成本,并实现优化的发情周期管理。因此,在合理范围内牺牲部分推理速度以实现更强的判别能力,是一种正当的工程权衡。需要注意的是,人工授精仍然是关键环节,将自动检测结果与人工授精程序结合,是确保最佳受孕率的必要步骤。

未来,研究团队将进一步优化和改进Fusion-ConformerNet,通过深入的算法改进和参数调优,实现更轻量化的模型和更优越的识别性能。此外,还将考虑引入更多模态(如行为和体温)并进行更广泛的实践验证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号