基于XGBoost机器学习模型结合新型温湿指数(THI)复合指标预测热应激对奶牛产奶量的影响

【字体: 时间:2025年10月11日 来源:Journal of Dairy Science 4.4

编辑推荐:

  本研究针对气候变化下热应激对奶牛产奶量的影响难以精准预测的问题,开发了一种基于XGBoost机器学习模型的新型预测方法。研究人员创新性地提出了温度-湿度指数(THI)复合指标,综合考虑热应激事件前后各2天的累积效应,结合奶牛生理参数(如DIM、年龄、HTBV)与气候变量,对10个澳大利亚牧场3,369头奶牛的日产奶量进行预测。模型验证显示预测精度高(R2最高达0.73,LCCC达0.84),THI复合指标比传统滚动平均THI预测精度提升高达21%。该模型为牧场制定热应激缓解策略和长期规划提供了可靠工具,对保障动物福利和畜牧业可持续发展具有重要意义。

  
随着全球气候变暖加剧,极端高温天气事件频发,商业奶牛牧场正面临着前所未有的挑战。热应激不仅直接导致奶牛产奶量下降,还会影响其繁殖性能、健康状况和整体福利,进而威胁牧场的经济可持续性。传统的热应激评估方法主要依赖温度-湿度指数(Temperature–Humidity Index, THI),通过设定固定的阈值来界定热应激程度。然而,这种方法存在明显局限:THI阈值具有地域特异性,且静态的THI值无法捕捉热应激事件的持续时间、严重程度以及奶牛个体对热应激的动态响应差异。更关键的是,热应激对奶牛产奶量的影响并非即时显现,往往存在滞后效应,且热应激事件发生前后的气候条件也会 modulating 奶牛的生理反应。因此,开发一种能够综合考虑热应激累积效应、个体奶牛差异以及环境因素的高精度产奶量预测模型,对于帮助牧场主提前预警、主动干预以减轻热应激损失至关重要。
为了应对这一挑战,由M.F. Hasan、N. Celik、Y. Williams、S.R.O. Williams和L.C. Marett组成的研究团队在《Journal of Dairy Science》上发表了一项创新性研究。他们利用强大的机器学习技术——极限梯度提升(eXtreme Gradient Boosting, XGBoost)模型,旨在精准预测不同气候条件下奶牛的日产奶量。该研究的核心创新点在于引入了一种全新的THI表征方式——THI复合指标(THI composite),旨在更全面地捕捉热应激事件的动态特征。
研究人员为开展此项研究,主要运用了以下几项关键技术方法:首先,他们与澳大利亚10个商业奶牛牧场合作,收集了从2019年初至2023年中的大规模数据,涉及3,369头奶牛,涵盖了奶牛生理信息(如产奶量、分娩日期、年龄)、基因信息(热耐受育种值HTBV)以及来自澳大利亚气象局(BOM)的逐小时气象数据。其次,他们创新性地计算了THI复合指标,该方法以日均THI ≥55作为潜在热应激日的触发点,然后计算该日及其前后各两天的THI均值,形成一个5天的综合指标。最后,研究利用XGBoost算法构建预测模型,并采用了组合模型、区域农场模型和留一农场出(leave-one-farm-out)三种验证策略来全面评估模型的准确性和泛化能力。
研究结果
相关性结果
对输入变量与产奶量进行相关性分析发现,奶牛泌乳天数(Days in Milk, DIM)与产奶量呈最强的负相关,即随着泌乳天数的增加,产奶量下降。奶牛年龄与产奶量呈最强的正相关。基因热耐受值(HT)和每日冷却小时数(THI ≤60的小时数)也与产奶量正相关。而气候变量,包括THI复合指标、最高气温和热应激小时数(THI ≥68的小时数)均与产奶量呈负相关。这表明所选用的输入变量能够较好地反映影响产奶量的关键因素。
模型验证与性能
研究通过三种方式验证模型性能:
  1. 1.
    组合模型:将所有牧场数据合并后建模。内部验证显示模型具有较高的预测精度和准确性(R2 = 0.73, LCCC = 0.84, nRMSE = 0.80)。独立验证(预留部分日期数据)结果稍低(R2 = 0.63, LCCC = 0.51, nRMSE = 2.04),但仍显示出良好的预测能力。
  2. 2.
    区域农场模型:针对每个独立牧场的数据分别建立模型。大多数牧场的模型在内部验证中表现出色(LCCC > 0.80,部分甚至超过0.90),独立验证结果虽然略低于内部验证,但多数牧场的LCCC仍在0.72至0.83之间,表明模型对单个牧场具有较好的适用性。
  3. 3.
    留一农场出验证:每次使用9个牧场的数据训练模型,然后用剩下的1个牧场的数据进行验证。这种验证方式的挑战性最大,预测精度相对于前两种方式有所下降(R2介于0.45至0.65,LCCC介于0.40至0.64),但这证明了模型在一定程度上具备跨牧场预测的潜力。
变量重要性
在组合模型中,对各输入变量的重要性进行评估显示,DIM是预测产奶量的最重要变量(贡献度约40%),其次是奶牛年龄(约25%)。基因热耐受值(HT)排名第三(约10%),而本研究提出的THI复合指标排名第四(约9%),其重要性超过了其他气候变量(如最高相对湿度、最高气温等)。这凸显了THI复合指标在预测模型中的价值。
THI复合指标的效率
为了验证THI复合指标的优势,研究人员将其与文献中常用的THI滚动平均值(如3天、5天、7天滚动平均)进行了比较。结果表明,使用THI复合指标的模型在内部验证和独立验证中均取得了最高的R2和LCCC值,以及最低的nRMSE值。特别是,THI复合指标的重要性(11%)远高于5天滚动平均THI(4.5%)、3天滚动平均THI(2.5%)和7天滚动平均THI(1%)。当使用5天滚动平均THI替代THI复合指标时,模型的预测精度明显下降,尤其是在独立验证中,模型对较高产奶量的预测能力变差。这充分证明了THI复合指标在捕捉热应激事件前后效应、从而提高产奶量预测精度方面的优越性。
结论与意义
本研究成功开发了一个基于XGBoost机器学习的高精度模型,用于预测热应激条件下奶牛的日产奶量。该模型创新性地引入了THI复合指标,有效克服了传统静态或简单滚动平均THI在表征热应激动态效应方面的不足。通过对澳大利亚多个牧场、不同气候区的大规模数据进行训练和验证,模型展现了良好的预测性能和一定的泛化能力。
这项研究的重要意义在于:首先,它为牧场管理者提供了一个强大的决策支持工具。利用该模型,牧场可以提前预测热应激可能造成的产奶量损失,从而及时采取干预措施,如调整饲喂策略、增加降温设施(喷淋、风扇)的使用、改变挤奶时间等,以减轻热应激的负面影响,保障动物福利和牧场经济效益。其次,该模型有助于进行长期战略规划,例如评估投资改善牛舍降温基础设施的回报,或者指导基于基因组信息(HTBV)的选种选配,培育更具热耐受性的奶牛群体,以应对未来气候变化的挑战。最后,研究所展示的将机器学习与改进的环境指标相结合的方法,为精准畜牧业和动物环境生理学研究提供了新的思路和技术路径。该模型框架有望进一步扩展,用于预测热应激对奶牛其他重要指标(如繁殖性能、健康状况、牛奶品质)的影响,从而为畜牧业的可持续发展提供更全面的科技支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号