通过自动化健康监测技术的数据以及其他奶牛健康预测因素,筛选和选择合适的机器学习算法来开发模型,以便对奶牛进行临床检查

《Journal of Dairy Science》:Screening and selection of a machine learning algorithm for development of a model to select cows for clinical examination using data from automated health monitoring technologies and other predictors of cow health

【字体: 时间:2025年10月08日 来源:Journal of Dairy Science 4.4

编辑推荐:

  本研究通过整合自动化健康监测系统(AHMS)数据和非传感器管理指标,构建了一个机器学习算法(MLA)筛选框架,比较了26种非深度学习算法和4种深度学习模型,最终发现XGBoost算法在灵敏度82.4%、特异性86.4%、F1分数0.56和AUC 84.4%等指标上表现最佳,并具备处理缺失数据的能力。研究验证了树 ensemble算法在时间序列数据中的有效性,为奶牛健康实时预警提供了算法基础。

  本研究旨在构建一个框架,用于训练和选择机器学习算法(MLA),以利用多个自动健康监测系统(AHMS)和非传感器数据,每日对奶牛健康状况进行分类。通过整合可穿戴传感器、非可穿戴传感器以及可能对预测奶牛健康具有价值的非传感器数据,我们收集了大量奶牛数据,包括临床健康状态等关键指标,从而为算法筛选和比较提供坚实的数据基础。研究涵盖了1,252头荷斯坦奶牛,总共有22,415个奶牛日记录,共包含49个特征。这些数据被划分为训练集和测试集,比例为80:20,分别包含17,887和4,528个奶牛日记录。数据预处理包括自动和手动的缺失值填补以及标准化操作,确保了数据的完整性和一致性。

研究团队采用了开源的自动化机器学习(AutoML)工具Lazy Predict Classifier(LZP)来训练和比较非深度学习的MLA。通过LZP,我们测试了26种非深度学习算法,并选择了表现最佳的XGBoost、AdaBoost、最近质心(Nearest Centroid)和伯努利朴素贝叶斯(Bernoulli Naive Bayes)算法进行进一步的优化和比较。随后,这些非深度学习算法与更复杂的深度学习算法,如多层感知器(MLP)、循环神经网络(RNN)、长短期记忆网络(LSTM)和门控循环单元(GRU)模型进行了对比分析。所有算法在训练和评估后,基于多个性能指标进行了综合比较,最终确定了表现最优的算法。

XGBoost算法在多种性能指标上表现突出,包括灵敏度(Se)达到82.4%,特异性(Sp)为86.4%,精确度(Prec.)为42.6%,负预测值(NPV)为97.6%,F1分数为0.56,以及曲线下面积(AUC)为84.4%。这些结果表明,XGBoost不仅在识别奶牛健康问题方面具有较高的准确率,还能有效处理缺失数据,使其在实际应用中更具鲁棒性。相比之下,其他深度学习算法在某些指标上表现稍逊,尽管它们在特定条件下可能具有优势。此外,XGBoost在标准化数据和非标准化数据上的表现几乎一致,这进一步增强了其在实际应用中的适应性。

研究还涉及了对数据集和预处理方法的详细分析,以确保模型的训练和评估能够在商业农场环境中具有可行性。通过创建多个数据集,包括未填补数据集、填补数据集、标准化数据集以及填补并标准化数据集,我们模拟了不同数据可用性场景,以评估不同算法在这些条件下的表现。这些数据集的构建有助于识别最适合商业部署的算法,因为填补和标准化可以自动应用于农场收集的原始数据。研究团队还通过网格搜索(GridSearchCrV)和交叉验证对选定的非深度学习算法进行了手动优化,调整了关键的超参数,如估计器数量、学习率和最大树深度,以提高模型的预测性能。

此外,研究还评估了深度学习算法在不同数据集上的表现。尽管深度学习模型在处理时间序列数据和复杂模式方面具有优势,但在当前的数据集规模下,它们的表现并未显著优于非深度学习模型。这可能是因为深度学习模型通常需要更大的数据集来避免过拟合,而本研究的数据集虽然规模较大,但仍可能不足以充分训练深度学习模型。相比之下,基于树的集成学习模型,如XGBoost和AdaBoost,在处理不同数据集和性能指标时表现出更高的鲁棒性,这使得它们成为奶牛健康分类的优选方案。

研究结果表明,集成学习模型在奶牛健康预测中具有显著优势。尽管它们在特异性和精确度方面略逊于某些深度学习模型,但它们在整体性能和稳定性方面表现更优。XGBoost和AdaBoost算法在多个性能指标上均表现出色,尤其在处理缺失数据和不同数据集时具有较高的鲁棒性。此外,这些算法在不同数据预处理步骤中的表现相对稳定,这表明它们能够适应实际农场环境中的数据波动。

在研究的讨论部分,作者指出,尽管深度学习模型在某些特定任务中表现出色,但在当前数据集和应用场景下,非深度学习模型,特别是集成学习模型,仍然是预测奶牛健康状况的首选。这主要是因为深度学习模型通常需要大量的数据来避免过拟合,而当前的数据集虽然较大,但仍可能不足以充分训练这些模型。此外,集成学习模型在处理不同数据集和性能指标时表现出更高的鲁棒性,这使得它们更适合商业应用。同时,作者也提到,一些非深度学习模型在处理不平衡数据集时存在局限,需要额外的调整或优化才能达到最佳性能。

本研究的局限性包括数据采集的高成本和复杂性,以及算法训练过程中对数据不平衡的处理不够充分。为了确保数据质量,研究仅限于单一农场的数据,这可能影响结果的外部有效性。此外,数据预处理过程中,缺乏对主要类别不平衡的控制,未进行特征选择,以及对某些特征(如瘤胃传感器数据)进行了大量的填补操作,这些都可能对模型性能产生一定影响。因此,未来的算法开发和优化工作需要更加细致地处理这些问题,以提高模型的准确性和鲁棒性。

综上所述,本研究为奶牛健康预测提供了一个全面的框架,通过整合多种传感器数据和非传感器数据,训练和评估了多种机器学习算法。研究结果表明,集成学习模型,特别是XGBoost和AdaBoost,能够有效识别奶牛健康问题,适合在商业农场中应用。未来的工作应进一步优化这些模型,以提高其在实际环境中的性能,并探索更复杂的特征工程方法,以实现更早的疾病预测和干预。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号