基于多模态传感器数据的精准绵羊养殖决策支持:一种数据驱动方法

《Ruminants》:Towards Decision Support in Precision Sheep Farming: A Data-Driven Approach Using Multimodal Sensor Data

【字体: 时间:2026年01月08日 来源:Ruminants 1.3

编辑推荐:

  本研究通过整合环境、生理和行为多模态传感器数据,采用机器学习回归模型(如随机森林RF、XGBoost、支持向量回归SVR等),评估了其对集约化饲养的奶绵羊关键福利与生产指标(如日产奶量DMY、眼内眦温度、呼吸率RR、日运动距离)的预测能力。结果表明,非线性模型能有效捕捉复杂相互作用,为精准畜牧业(PLF)中的动物福利监测和早期预警提供了数据驱动的决策支持。

  
引言
随着全球食品需求的持续增长,养殖者面临着在维持动物高福利标准的同时提高生产力的挑战。精准畜牧业(Precision Livestock Farming, PLF)作为一种革命性方法,利用技术进步来改善动物健康、福利和生产力,同时支持可持续的管理实践。PLF的核心思想是整合传感器衍生的数据流,实现对动物及其环境的连续、客观监测。在商业畜牧系统中,及时决策对于最大化动物福利和生产至关重要。然而,在绵羊不常被处理的商业环境中,获取详细的表型信息仍然具有挑战性。
动物行为的变化可以作为潜在疾病或福利受损的早期指标。然而,传统的绵羊福利评估依赖于劳动密集型且主观的测量方法,如体况评分(Body Condition Score, BCS)、呼吸率(Respiratory Rate, RR)监测和行为观察。非侵入式传感器(如加速度计)通过实现对动物活动的连续监测,为了解个体的生理状态和外部反应提供了途径。动物佩戴的传感器设备能够连续记录活动数据,这些数据可用于分类行为模式。特别是加速度计,已被用于检测基本行为,如采食、站立、卧倒、行走和反刍。全球定位系统(GPS)增加了空间背景,从而有助于评估异质景观中的采食模式和移动。精准畜牧业中的运动能力包括移动性的多个方面,例如加速度计记录的轴特异性活动和GPS记录的水平位移。
小型反刍动物农场通常在更恶劣的环境条件下运营,并面临实际和基础设施限制,这使得对生产环境的连续监测尤为重要。工程技术的进步和新技术成本的下降使得开发基于传感器的解决方案成为可能,这些方案能够自动、实时地收集数据,从而实现与生产损失、健康不良或福祉威胁相关问题的早期检测。这些传感系统可以监测关键环境变量——如温度、湿度、空气质量和照度——提供客观信息,支持在群体或个体层面做出及时决策。由于小型反刍动物农场通常动物数量多、个体价值低、员工与动物比例低,自动化环境监测有助于弥补劳动力有限的不足,并增强对行为和生理指标的解释。此外,环境测量是PLF系统的重要组成部分,能够在商业条件下实现连续的、基于传感器的评估,而在这些条件下,人工观察常常受到劳动力、成本和农场位置的限制。
尽管取得了显著进展,但大部分关于绵羊行为监测的研究是在实验环境下进行的,样本量小,监测持续时间有限。研究中经常使用单传感器系统或来自单一来源的多个传感器;然而,混合和多模态方法更有希望产生生理和行为方面的见解。无线传感器网络、物联网(Internet of Things, IoT)技术和机器学习(Machine Learning, ML)的最新进展进一步推动了人们对实时PLF应用的兴趣。连续监测能够早期发现异常行为,提高农场管理效率,并有助于改善动物福利。
热应激对绵羊的福利和生产力都是一个重大挑战,尤其是在地中海和亚热带生产系统中。热应激会扰乱生理、生化和行为过程,导致生产力下降、免疫抑制和对传染病的易感性增加。直肠温度、呼吸率和瘤胃温度是传统的热应激指标示例;然而,这些方法是侵入性的、劳动密集型的,并且可能本身就会给动物带来额外的应激。相比之下,连续监测生理状态的传感器系统为热应激的非侵入性实时评估提供了一种有前景的替代方案。
红外热成像(Infrared Thermography, IRT)提供了一种评估动物热反应的非侵入性方法。它已被用于评估特定解剖区域(如眼睛、口鼻和胁腹)与应激相关的温度变化。然而,IRT测量的准确性容易受到若干环境和方法学因素的影响——例如图像捕捉角度、与动物的距离和环境条件——这可能使数据解释复杂化。这些挑战凸显了对可靠分析方法的需求,而机器学习(ML)算法为调整和建模热反应与核心体温响应之间的非线性关系提供了一条有前途的途径。
人们越来越关注整合多模态数据——行为、生理和环境——以提高预测能力、增强鲁棒性和加强可解释性。非侵入式遥感技术,包括热成像和计算机视觉,已被用于识别生理指标,如呼吸和心率,而无需物理接触。此外,边缘计算和近实时数据处理在支持农场动物管理中的及时决策和早期干预方面发挥着重要作用。
尽管有这些进展,现有的绵羊数据驱动和基于传感器的建模研究通常侧重于单一传感流或有限数量的福利指标,并且经常使用标准的训练-测试分割进行评估。因此,在奶绵羊系统中,同时整合行为、生理和环境数据流的综合价值,以及模型在个体动物间泛化的鲁棒性,仍然没有得到充分的探索。此外,虽然计算和统计方法越来越多地被报道,但它们在集约化奶绵羊饲养条件下,利用多模态数据整合和严格验证策略的应用仍然有限。
在这项探索性研究中,我们调查了多模态传感器数据——涵盖行为测量、生理指标和环境条件——是否可用于预测奶绵羊的连续福利和生产相关性状。通过开发机器学习回归模型,这项工作初步评估了这些不同的数据流如何有助于解释地中海饲养条件下产奶量、热反应、呼吸动力学和日运动量的变异,同时通过多种验证策略明确评估模型性能,以检验鲁棒性和动物层面的泛化能力。
材料与方法
实验设置与数据收集
研究在希腊Paiania的一个商业奶绵羊农场进行,为期一个泌乳期(2025年2月至7月)。共有90头纯种泌乳母羊(75头希俄斯羊和15头莱斯沃斯羊)被纳入研究,在产后45天开始,并系统监测一个泌乳期。其中,30头母羊(15头希俄斯羊和全部15头莱斯沃斯羊)被随机选中佩戴GPS项圈(由Digitanimal公司生产),而其余60头希俄斯羊仅通过物理观察进行评估。在饲养设施内安装了一套环境传感系统,连续记录整个羊群的环境条件。所有动物在相同的管理条件下饲养。
项圈连续记录表面温度、加速度计数据和GPS位置。加速度计数据以10 Hz的采样频率在每11分钟内的18秒内以短脉冲方式收集。随后由设备计算汇总统计量,并使用相应的GPS定位点进行时间戳标记;GPS位置数据以相同的11分钟间隔记录,而表面温度则以制造商的默认间隔记录。从这些信号中衍生出日运动量指标,包括日行进距离(来自GPS坐标)和基于加速度计的运动强度(z轴活动),提供了关于水平位移和垂直运动的补充信息。环境传感器测量氨气(NH3)、二氧化碳(CO2)、照度(勒克斯lux)、环境温度(°C)和相对湿度(%)。甲烷(CH4)浓度使用Guardian NG传感器测量。所有环境传感器在安装前均由制造商进行工厂校准,并在整个研究期间使用制造商的默认记录间隔运行;未进行额外的现场重新校准。环境传感器安装在饲养设施内的两个高度:气体浓度传感器(CH4, NH3, CO2)放置在距地面约1米的高度,以反映动物的吸入区;而温度、相对湿度和照度传感器安装在约2米的高度,以捕捉饲养环境内更广泛的周围条件。此外,使用干球温度和相对湿度的测量值,通过公式计算温湿度指数(Temperature–Humidity Index, THI)。
所有动物的生理和福利相关参数均按固定间隔记录,包括每周评估体况评分(BCS,使用五级评分制,增量为0.25,其中1代表消瘦,5代表肥胖)。体况评分在腰椎和短肋区域进行,遵循标准触诊指南。直肠温度通过数字温度计测量,眼内眦温度通过热成像相机测量。热记录由同一名训练有素的操作员使用预定义的协议(关于设置和程序)通过短视频序列获取,从约0.5米的距离测量眼内眦。图像采集在动物间标准化,相机位置大致垂直于目标区域以最小化角度效应。发射率根据制造商推荐的生物组织值设置(发射率值0.95),采集时测量的环境条件用作相机输入。相机的热灵敏度、噪声等效温差(NETD)、精度、发射率和分辨率分别为<40 mK @ 30°C, ±2°C或读数的±2%, 0.95, 和320 × 240像素。呼吸率(次/分钟)通过观察 flank movements 计数1分钟。每月从颈静脉采集血液样本(10毫升),静置30分钟后,在4°C下以3000×g离心10分钟;分离血清,用于使用商业ELISA试剂盒测量皮质醇水平(ng/mL)。血液采样由同一名训练有素的兽医在挤奶后并根据国家动物福利法规和批准的方案进行,以最小化动物的应激和不适。每月血清皮质醇浓度作为反映对常规农场管理条件的内分泌反应的生理指标被纳入。此外,对所有泌乳母羊进行每月个体产奶记录,并根据ICAR建议计算日产奶量(Daily Milk Yield, DMY)。所有母羊每天机械挤奶两次,间隔12小时(06:00和18:00),遵循农场的标准程序。
所有生理和行为变量的测量均在每个采样日的约06:00–10:00 a.m.进行,以避免因动物一天中正常生理变化引起的差异。
为确保一致性和完整性,所有数据都经过清理和适当格式化。此外,它们按动物ID对齐。时间变量转换为标准化日期格式,以实现跨数据源的时间对齐。基于文献中的生物学知情标准(例如,不可信的直肠或眼部温度、超出生理限度的呼吸率,或由于传感器故障导致的GPS衍生日距离为零),排除具有极端或生物学上不合理值的记录。缺失值主要是结构性的,源于变量间测量频率的差异,一些结果和预测变量每周或每月收集,而每日传感器衍生的变量用作每个观察值之前的滞后预测变量(day-1, day-2等)。由于传感器故障导致的真实缺失数据很少,仅限于单个项圈的短暂中断(连续七天)。这种结构允许模型考虑动物对环境条件和管理条件的延迟生理和行为反应。缺失的数值使用中位数插补。分类变量,如品种,转换为虚拟变量以便整合到模型中。为避免信息泄露,中位数插补、归一化和分类编码仅在每个重采样折叠的训练数据内实施,使用“recipes”框架。对于每个每周或每月的结局测量,使用前几天的每日传感器衍生变量(day-1至day-6)作为预测变量,确保时间一致性并防止包含结局评估后收集的信息。
机器学习与模型评估
为了预测关键的福利和生产指标——包括产奶量、眼内眦温度、日运动量和呼吸率——应用了一套监督式机器学习回归算法。基于行为、生理和环境变量的多种回归和机器学习算法被应用于预测母羊的福利指标。目标变量——日产奶量、眼内眦温度、呼吸率和日距离——代表了与生产力、应激和身体状况相关的主要福利因素。预测变量包括体况评分(BCS)、环境测量值(THI、项圈温度、CO2、NH3等)以及从GPS衍生的行为指标(日距离、平均速度和位置均值),辅以固定的动物特征(品种、年龄),以及在可用时,将皮质醇浓度作为与应激反应相关的生理指标。
在建模之前,为了评估潜在的多重共线性,通过相关热图检查所有预测变量之间的相互关联。使用中等相关幅度(绝对皮尔逊相关系数约为0.5)作为参考阈值,以识别中等到强的关联,并有助于解释预测变量之间的关系。重要的是,该相关性分析仅用于探索性评估,并且在模型开发之前未应用基于相关性的自动特征消除。
使用几种统计和机器学习方法进行建模:线性回归(Linear Regression, LR)、偏最小二乘回归(Partial Least Squares Regression, PLSR)、随机森林(Random Forest, RF)、极端梯度提升(eXtreme Gradient Boosting, XGBoost)、多层感知器(Multilayer Perceptron, MLP)、弹性网络(Elastic Net, EN)、支持向量回归(Support Vector Regression, SVR)、集成学习和混合效应模型。每个模型在六个时间窗口(day-1至day-6)的相同数据集上进行训练和验证,从而能够对预测稳定性和性能进行稳健比较。
创建了初步的探索性回归可视化图,用于展示重要的行为和环境预测变量与生产性能之间的联系。
在模型拟合之前,所有数值预测变量均使用z-score归一化进行中心化和缩放,以确保具有不同单位和范围的变量之间的可比性。归一化在预处理工作流程中实施,并仅使用每个重采样折叠内的训练数据进行估计。超参数调整使用嵌套交叉验证进行。对于随机森林模型,调整了每次分割时随机抽样的变量数量和树的数量。对于极端梯度提升模型,优化了树的深度、学习率和提升迭代次数。支持向量回归模型根据核类型、成本(正则化参数)和核宽度进行调整,而多层感知器模型作为前馈神经网络实现,调整重点放在网络大小和正则化参数上。弹性网络模型根据混合参数和惩罚参数进行调整。
为连续结局实施了全面的回归框架。利用线性模型和偏最小二乘回归(PLSR)来提高可解释性并处理残余的多重共线性,而弹性网络(EN)正则化旨在平衡偏差和方差。随机森林和极端梯度提升(XGBoost)捕捉复杂的非线性相互作用,支持向量回归(SVR)和前馈神经网络(多层感知器,MLP)对高度非线性的响应模式进行建模。线性混合效应模型(Linear Mixed-Effects Model, LMM)将动物身份作为随机效应纳入,以解释重复测量。此外,一种简单的集成技术结合了来自RF、XGBoost和EN的预测,以提高鲁棒性和预测准确性。
模型训练和评估遵循嵌套交叉验证协议,使用五个外部折叠进行无偏模型评估,内部折叠用于超参数优化。对于主要分析,数据被分割为训练集(70%)和测试集(30%)。为了评估模型在个体间的泛化能力,应用了分组交叉验证策略(留一动物交叉验证,Leave-One-Animal-Out Cross-Validation, LOAOCV)。为确保模型可靠性和可泛化性,实施了嵌套交叉验证(Nested Cross-Validation, CV)程序。在该方案中,数据集被分为用于无偏模型评估的外部折叠和用于超参数调整的内部折叠,从而最小化模型选择过程中的过拟合风险。此外,应用了留一动物交叉验证(LOAOCV)策略来测试模型在个体动物间的泛化能力。在LOAOCV中,来自一只动物的所有记录被排除在模型训练之外,然后用作测试集,从而可以在完全未见的个体上评估性能。这种方法反映了现实世界的部署场景,其中预测必须扩展到模型先前未观察到的新的动物。
因此,动物身份作为分组因子在所有机器学习模型的重采样过程中得到明确尊重,防止了来自同一母羊的重复测量之间的信息泄露。
模型性能使用决定系数(R2)、均方根误差(Root Mean Squared Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)、皮尔逊相关系数(r)和一致性相关系数(Concordance Correlation Coefficient, CCC)进行量化。所有模型均在R中使用tidy models框架以及用于基于树的方法、神经网络和混合效应建模的专用库进行开发。包含滞后的环境和行为预测变量(例如,day-1, day-2值)使模型能够捕捉农场管理和环境条件对动物福利和生产力的即时和延迟效应。
伦理批准
所有实验程序,包括血液采样和动物监测,均经过雅典农业大学动物研究伦理委员会的审查和批准。根据第4521/2018号法律第23条第1款,委员会评估了提交的研究方案和相关文件,并授予批准(协议编号96/26.09.2025)。在本研究进行期间,所有关于动物伦理待遇的适用指南和法规均得到应用。
结果
建模数据集的基本描述性统计,包括每个品种的观察数量以及关键环境变量和产奶量的平均值,见表格1,以为后续分析提供背景。
关键关系的描述性可视化
温湿度指数(THI)与日产奶量(DMY)之间的关系如图3所示,该图显示了希俄斯羊(X)和莱斯沃斯羊(M)的个体观察值,以及一条平滑的回归线及其置信区间。图4提供了日行进距离与DMY的类似可视化,再次区分了两个品种,并显示了测量的分布和拟合的趋势线。这些图表在应用建模框架之前提供了数据结构的描述性概述。
模型特定结果
线性回归(LR)
线性模型在福利指标上提供了适度的预测性能,对于大多数结局变量,R2范围在0.18到0.46之间。该模型捕捉了生产力与环境条件之间的广泛趋势,但在解释非线性关系方面存在局限。对于日产奶量,线性回归在表现最佳的day 2和day 4配置下达到R2约0.42,而对于眼内眦温度,性能峰值在R2 = 0.48–0.51。该模型在行为指标(如日运动距离,R2 ≈ 0.28–0.34)上表现不佳,反映了其无法模拟环境应激源与移动性之间的复杂相互作用,而呼吸率的峰值在R2 ≈ 0.36。在CV和LOAOCV下,相同的线性模型显示出预期的性能衰减:产奶量R2 ≈ 0.18–0.35,眼内眦温度R2 ≈ 0.41–0.59,日距离R2 ≈ 0.39,呼吸率R2 ≈ 0.19。尽管准确性下降,但过拟合程度较低,训练集和验证集之间模式相似,表明泛化稳定但有限。
偏最小二乘回归(PLSR)
偏最小二乘回归通过处理预测变量间的多重共线性提高了模型稳定性。在福利指标上,R2值在0.43到0.59之间变化,较高的性能在日产奶量和眼内眦温度上实现。该方法有效地最小化了来自相关预测变量(如THI、温度和CO2)的噪声,这些变量在集约化饲养系统中本质上是相互依赖的。在CV和LOAOCV下,PLSR保持了一致的排名,R2值略有下降(通常为0.05–0.10),说明在个体间具有稳定的泛化能力,并且过拟合低,在动物间具有可靠的泛化能力。边际收益表明,PLSR的线性分量结构不足以完全表示非线性动态,尽管与线性回归相比达到了更高的R2。
随机森林(RF)
随机森林模型在所有因变量上均提供了出色的预测性能,R2值从0.38到0.69。对于DMY,RF consistently achieved R2值在0.37到0.41之间,超过了其他单一模型的性能。眼内眦温度的R2达到0.65–0.69,日运动距离的R2约为0.62。在CV和LOAOCV下,RF保持了其高性能,R2值分别在0.38到0.66和0.38到0.58之间变化。该算法在所有目标变量上也产生了一致的CCC值,证明了观测值和预测值之间稳健的相关性。模型的集成架构降低了对噪声的敏感性并增强了泛化能力。然而,其较高的训练精度与验证结果相比,显示出中度的过拟合。这些发现强调了RF模拟非线性依赖关系和复杂特征相互作用的能力。此外,必须提到的是,特征重要性分析显示,BCS、THI和日运动距离是生产力和福利的主要预测因子,证明了体况和热应激的相互交织效应。利用RF处理动物监测数据的研究也观察到了类似的结果,因为通过选择随机的协变量子集,它构建了多个决策树,提高了预测精度并减少了过拟合。
极端梯度提升(XGBoost)
极端梯度提升显示出与RF相当——在某些情况下略优——的性能,R2值范围在0.38到0.66之间。其梯度提升机制在大部分预测变量组合中展示了相当令人鼓舞的发现。XGBoost在眼内眦温度上达到R2 = 0.66,在日运动距离和DMY上达到R2值在0.38到0.59之间。极端梯度提升在CCC值上也取得了成功,说明了观测值和预测值之间的强相关性。在CV和LOAOCV下,其性能保持一致,R2值范围分别在0.33到0.72和0.33到0.73之
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号