《Veterinary Medicine and Science》:STELLAR-CB: Synthetic Temporal LSTM for Livestock Activity Recognition—Cow Behaviour
编辑推荐:
精细化家畜养殖(Precision Livestock Farming, PLF)利用活动传感器监测放牧、休息和行走等行为,然而数据集中的类别不平衡常导致“逃逸”和“被爬跨”等少数行为表征不足。该研究提出一种新型框架,将长短期记忆网络(Long Short-T
精细化家畜养殖(Precision Livestock Farming, PLF)利用活动传感器监测放牧、休息和行走等行为,然而数据集中的类别不平衡常导致“逃逸”和“被爬跨”等少数行为表征不足。该研究提出一种新型框架,将长短期记忆网络(Long Short-Term Memory, LSTM)与合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)相结合,以应对这一挑战。不同于现有方法采用DeepSMOTE或潜在空间增强(latent space augmentation)等复杂SMOTE变体、从而增加计算复杂度与额外开销,该方法将基础SMOTE与非重叠窗口分割相结合,在扩增少数类的同时保留合成数据生成过程中的时序模式。LSTM架构能够捕获平衡后数据集中的时间依赖性,从而实现稳健的行为识别。该框架在由3头不同奶牛构成的复合加速度计数据集上进行评估,能够跨品种泛化,克服品种特异性模型的局限。其达到当前最优水平的性能:准确率97.24%、精确率97.56%、召回率97.24%、F1值97.29%,在不损害多数类精确率的前提下,显著提升了对稀有行为的检测能力。通过整合多头奶牛的数据,该模型确保了对行为变异性的稳健性,增强了其在多样化养殖环境中的可扩展性。采用基础SMOTE的简洁策略降低了计算开销,使该方案更适于真实场景部署。该研究将经典数据平衡技术与现代深度学习相结合,为农业人工智能(AI)中处理不平衡时间序列数据提供了一种资源高效的实现范式。研究结果通过提升自动化行为监测的可靠性,推动了精细化家畜养殖的发展,并借助易获取、与品种无关的人工智能工具,直接促进动物福利与养殖生产率的提高。
该文发表于《Veterinary Medicine and Science》,聚焦精细化家畜养殖(PLF,即利用传感、数据分析与智能模型实现动物健康和行为精细管理)中的一个关键问题:如何基于可穿戴加速度计数据稳定、准确地识别奶牛行为。研究背景在于,牛只行为监测对于评估健康、福利、繁殖状态及牧场管理效率具有重要意义。既有研究已广泛使用加速度计、机器学习(ML)和深度学习(DL)方法识别采食、行走、反刍、静卧等行为,但仍存在两类核心瓶颈。其一,行为数据天然存在严重类别不平衡,站立休息、站立反刍和移动等常见行为样本大量占优,而逃逸、攻击、被爬跨等低频却具有管理意义的重要行为样本极少,导致分类器偏向多数类。其二,部分传统方法或浅层模型难以充分建模加速度计序列中的时间依赖结构,从而限制了复杂行为模式的识别能力。基于此,研究人员提出了一个将合成少数类过采样技术(SMOTE)与长短期记忆网络(LSTM,一类适于序列建模的循环神经网络)结合的行为识别框架,旨在在保持时间序列结构的同时改善少数类识别能力,并提升模型的总体泛化性能。
研究所用数据来自公开的Japanese Black Beef Cow Behavior Classification Dataset。原始数据包含6头日本黑毛和牛颈部佩戴的16-bit ±2 g Kionix KX122-1037三轴加速度计记录,采样率为25 Hz,并结合视频标注获得行为标签。研究在预处理后去除了空白类与“other”类,最终保留13类定义明确的行为,包括站立休息(RES)、站立反刍(RUS)、移动(MOV)、采食牧草(GRZ)、舔盐(SLT)、栏内采食(FES)、饮水(DRN)、舔舐(LCK)、卧位休息(REL)、排尿(URI)、攻击(ATT)、逃逸(ESC)和被爬跨(BMN)。从样本分布看,RES、RUS和MOV占据绝大多数,而ESC与BMN样本极少,类别不平衡十分显著,这是本文方法设计的直接动因。
在方法上,研究人员围绕“时间序列保真扩增+时序深度建模”建立了完整流程。数据首先经过清洗、标签编码和标准化处理,再按行级随机划分为训练集和测试集。为尽量减少传统SMOTE直接作用于时间点可能破坏时序关系的问题,研究将数据先切分为非重叠且行为同质的5 s窗口,然后对完整窗口实施SMOTE扩增,而不是对单个时间步插值。研究人员强调,这一策略在保持短时间范围时序结构的同时实现类别平衡,相较DeepSMOTE和基于变分自编码器(VAE)的扩增方法,具有结构简单、计算负担低、易部署的优势。完成数据平衡后,研究构建了三层LSTM网络:第一层128个单元、第二层64个单元、第三层32个单元,用以逐步提取层级化时间特征;随后接入50% dropout层抑制过拟合,再通过64单元全连接层和softmax输出层完成多分类预测。模型采用Adam优化器,学习率为0.001,批量大小64,训练10个epoch,损失函数为稀疏分类交叉熵,并利用验证集监测训练过程。
方法概括而言,作者主要采用了4项关键技术:其一,基于公开队列的三轴颈部加速度计行为数据重分析,样本来源为6头日本黑毛和牛单日自由活动记录;其二,实施数据清洗、标签编码、标准化及非重叠5 s行为同质窗口切分;其三,针对少数类行为在整窗层面应用SMOTE进行合成过采样,以缓解类别不平衡并尽量保留时间依赖;其四,构建三层LSTM时序分类模型,并结合dropout正则化、Adam优化和验证集监控完成训练与评估。
在结果部分,论文围绕多个小节系统呈现了模型性能与意义。
5.1 Performance Evaluation部分表明,该模型在总体层面取得了优异的多分类性能。研究通过准确率、精确率、召回率和F1值评价模型,结果显示总体准确率为97.24%,精确率97.56%,召回率97.20%,F1值97.38%。这一结果说明,所提框架不仅能够较好地区分常见行为,也在整体上保持了较低误分类率。研究还进一步引入Matthews相关系数(MCC,一种综合考虑混淆矩阵各元素的稳健评价指标)作为类别不平衡条件下的补充指标,在保持原始类别分布的留出测试集中,报告准确率0.85、加权F1值0.85、MCC为0.7091,说明预测标签与真实标签之间存在较强正相关,也提示模型并非单纯受类别分布驱动而获得表面高分。
5.1.2 Macro-Averaged and Weighted-Averaged Metrics部分进一步说明模型对不平衡数据的适应性。研究计算了宏平均和加权平均F1值,二者均为97.38%,表明模型在各类别上的表现较为均衡,没有因多数类占优而显著牺牲少数类性能,这与SMOTE平衡策略的设计目标一致。
5.2 Comparison With Existing Studies部分将该方法与既有文献进行对比。研究指出,既往研究多为个体中心(individual-centric)数据设计,涵盖行为类别较少,或偏重硬件低功耗部署,而本文采用群体层面(herd-level)思路,整合多头牛数据并覆盖更广的行为类型。从比较结果看,Russel and Selvaraj(2024)在部分数据集上获得很高准确率,但不同数据集之间波动明显;Li et al.(2022)证明数据增强能够显著改善少数行为如放牧的识别;El Moutaouakil and Falih(2024)展示了RNN在时序行为分类中的有效性;Bartels et al.(2022, 2023)则突出边缘部署和低功耗优势。与这些研究相比,STELLAR-CB的突出贡献在于兼顾较高精度、更多行为类别以及群体级泛化能力。文中比较表显示,该方法在13类行为上均取得高水平指标,并以97.24%的准确率、97.56%的精确率、97.24%的召回率和97.29%的F1值展现出竞争力。
5.2.7 Performance Across Metrics与Table 3进一步给出各类别的分类表现。结果显示,ATT、BMN、DRN、ESC、FES、GRZ、LCK、REL、RUS、SLT和URI等类别的精确率、召回率及F1值大多达到0.98至1.00,MOV约为0.96,RES约为0.97。这说明在SMOTE增强后,即便是ATT、ESC、BMN等原本样本极少的行为,也获得了较强识别能力。由此可见,少数类扩增并未明显损害多数类表现,反而提升了整体分类稳定性。
5.3 Model Robustness and Comprehensive Classification部分强调了模型的广覆盖性与稳健性。论文指出,现有研究常处理4至10类行为,而该模型能够识别15类行为类别(正文清洗后实际用于分析的是13类明确行为标签),显示出更高的任务复杂度承载能力。图示结果显示,SMOTE前后类别分布差异显著:原始数据中RES达到141,717个样本,而BMN仅54个;SMOTE后各行为类均平衡至141,717个样本。这一平衡过程为模型学习稀有行为提供了必要条件。5.3.1 Consistency Across Metrics指出,宏平均和加权平均指标均维持高水平,说明模型在多类任务中具备一致性。5.3.2 Training and Validation Performance则显示训练和验证的准确率、损失曲线平滑收敛,提示优化过程稳定、过拟合较轻,模型具有较好的泛化潜力。
5.4 Computational Efficiency部分讨论了该框架的实用价值。研究认为,采用基础SMOTE而非更复杂的潜在空间合成方法,有助于在保证分类覆盖度和少数类识别能力的同时降低计算成本,因此更适合真实养殖环境中的部署需求。论文强调,模型在多个类别上取得接近或达到100%的精确率、召回率和F1值,尽管个别低频类别仍有进一步优化空间,但总体上已显示出高效且可行的应用前景。
讨论与局限性部分主要围绕泛化边界展开。作者指出,当前数据集规模较小,来源于有限数量个体且记录时间仅1天,因此模型尚未充分暴露于跨日、跨季节、跨气候及不同管理制度下的自然行为波动。其次,数据按窗口后进行行级划分,虽然保留了行为层面的类别比例,但同一头牛的部分行为模式可能同时出现在训练集和测试集中,从而带来乐观估计;从实际部署角度看,按个体完全独立划分更能检验对新个体的泛化能力。再次,尽管研究采用SMOTE和分层划分缓解类别不平衡,但未进行完整交叉验证,模型在边缘设备实时部署中的推理时延、内存与能耗表现也尚未被系统评估。此外,深度学习模型固有的过拟合风险仍需在更大规模数据上持续检验。总体而言,论文在讨论中并未夸大结论,而是将结果限定在现有公开数据和实验设置的范围内。
研究结论部分可译为:SMOTE增强的LSTM模型通过有效解决不平衡数据集带来的挑战,同时保持优异的分类准确性,建立了新的性能基准。这一进展提升了家畜监测与行为研究的可靠性和精度,使该模型在精细化家畜养殖(PLF)背景下具有特定应用价值。通过将虚拟数据增强与深度学习方法相结合,该模型增强了对多种行为模式的检测能力,从而支持动物健康与福利管理相关的决策过程。研究结果凸显了机器学习在PLF中的潜力,提供了一种可扩展且计算负担较轻、适于现实场景实施的解决方案。论文进一步指出,未来该模型可与基于传感器的颈圈和物联网(IoT)网关集成,实现加速度数据持续流式传输,并连接牧场管理仪表盘或移动应用,对逃逸、被爬跨、攻击等异常或风险相关行为触发自动预警;在群体层面,还可接入决策支持平台,用于行为趋势可视化、早期预警和及时干预安排,从而为家畜健康与福利管理中的预测分析建立可扩展基础。
总体来看,该研究的重要意义在于:其一,证明了经典SMOTE在经过适当时序窗口化处理后,仍可作为农业时间序列不平衡问题的有效轻量级解决方案;其二,展示了LSTM对奶牛行为加速度序列时间依赖的良好建模能力;其三,表明在覆盖更多行为类别、尤其是低频关键行为时,合理的数据平衡策略能够显著提升识别实用性;其四,该框架兼顾性能、计算效率与跨个体稳健性,为PLF中的自动行为监测提供了具有现实可实施性的技术路径。