基于随机森林回归(RFR)、支持向量回归(SVR)和分类回归树(CART)算法的埃塞俄比亚本土绵羊体重预测模型构建与评估

【字体: 时间:2025年10月12日 来源:Veterinary and Animal Science 2.2

编辑推荐:

  本研究针对埃塞俄比亚小农户缺乏称重设备的现实问题,采用随机森林回归(RFR)、支持向量回归(SVR)和分类回归树(CART)三种机器学习算法,基于16个体尺性状建立本土绵羊体重(BW)预测模型。研究发现RFR模型预测精度最高(训练集R2=0.809,验证集R2=0.477),其中胸围(HG)是最关键预测因子(相对重要性40.90%),为资源受限地区的牲畜管理提供了有效的无称重评估方案。

  
在埃塞俄比亚的广袤乡村,绵羊养殖不仅是重要的经济来源,更是无数小农户家庭生计的支柱。这些毛茸茸的牲畜提供肉、奶、皮毛等多种产品,还扮演着"活体储蓄银行"的角色。然而一个令人困扰的难题长期存在:在缺乏称重设备的偏远地区,农民们只能依靠肉眼估测羊只体重,这种传统方法就像雾里看花,准确性难以保证。体重估测的误差直接影响遗传选育、健康管理和市场交易的决策,成为制约畜牧业发展的隐形瓶颈。
正是在这样的背景下,研究人员将目光投向了机器学习技术带来的革新机遇。近期发表在《Veterinary and Animal Science》的研究论文,开创性地将三种先进算法——随机森林回归(Random Forest Regression, RFR)、支持向量回归(Support Vector Regression, SVR)和分类回归树(Classification and Regression Trees, CART)应用于埃塞俄比亚本土绵羊的体重预测,为解决这一实际问题提供了科学方案。
研究团队采用了多学科交叉的技术路线,主要关键技术方法包括:在埃塞俄比亚提格雷地区Tahtay Maichew区采集306头成年绵羊(249头母羊和57头公羊)的形态测量数据;使用悬挂式弹簧秤测量体重(BW),测量卷尺获取16个线性体尺指标(LBMs);应用JMP Pro 18统计软件进行描述性统计和相关分析;采用10折交叉验证和单标准误差规则优化模型性能;通过多种统计指标(AIC、RMSE、MAE、R2等)全面评估算法预测精度。
3.1. 描述性统计和相关系数
研究人员首先对306头绵羊的体重和体尺性状进行了系统分析。数据显示平均体重为23.59公斤,大多数性状表现出较低至中等的变异性(CV < 15%)。特别值得注意的是,胸围(HG)和体长(BL)与体重呈现最强的正相关关系(相关系数r分别为0.61和0.46),这表明这些指标可能作为体重预测的关键参数。而耳长(EL)和毛长(HRL)则表现出较高的变异性,提示这些性状可能不太适合作为稳定的预测指标。
3.2. 算法的预测性能
CART算法生成了一棵包含12个节点的回归树,使用了四个主要预测因子:胸围(HG)、耆甲高(HAW)、毛长(HRL)和体长(BL)。该模型成功地将羊群按体重分层,范围从18.53公斤到34.80公斤,其中最重的羊群同时具有较大的胸围(HG ≥ 74 cm)和较高的耆甲高(HAW ≥ 72 cm)。
三种算法的比较结果显示,RFR表现出最优异的预测性能,在训练集和验证集上都取得了最高的决定系数(R2分别为0.809和0.477)和最低的均方根误差(RMSE分别为1.650和2.825)。SVR在训练阶段表现良好,但在验证阶段泛化能力较弱,表明可能存在过拟合问题。CART算法整体表现最弱,预测精度相对较低。
变量重要性分析揭示了不同算法中预测因子的贡献差异。在RFR模型中,胸围(HG)以40.90%的相对重要性位居首位,体长(BL)和耆甲高(HAW)分别以14.85%和14.63%的重要性紧随其后。SVR模型同样显示胸围是最重要预测因子(16.30%),但其他参数如胸深(CD)、肩点宽(SPW)和臀宽(RW)也贡献了7.00-8.10%的重要性。CART模型则更加极端,除了胸围(HG,68.76%)、耆甲高(HAW,19.78%)、毛长(HRL)和体长(BL)外,其他性状的重要性均为零。
4.1. 描述性统计和相关系数
研究发现与先前多项研究一致,证实了胸围和体长作为体重预测指标的稳健性。这种一致性跨越了不同物种和品种,从绵羊到山羊再到牛类,胸围都显示出与体重的强相关性。然而,本研究中的相关系数低于某些先前报道,这可能反映了品种特性、环境条件、年龄分布和管理实践的差异。中等程度的相关性出现在胸深、尾宽、管围和臀宽等性状上,表明这些指标提供辅助预测价值。而肩高、耳长和毛长则显示出微弱或不显著的相关性,限制了它们在体重预测模型中的实用性。
4.2. 算法的预测性能
CART回归树分析成功利用关键形态测量指标对绵羊体重进行了分层,胸围成为主要决定因素。这一发现与在绵羊和山羊中的先前研究一致。模型的层次结构显示,羊群首先按胸围划分,然后使用其他显著性状(耆甲高、毛长和体长)进一步分类,证明了这些测量在确定体重方面的相对重要性。
RFR模型的优越性能可能源于其捕捉非线性关系的内在能力,这使其特别适用于绵羊体重预测。尽管SVR在训练阶段表现出与RFR相当的性能(具有相似的R2和RMSE值),但其较差的验证结果表明泛化能力有限,可能通过参数调整来缓解过拟合问题。CART算法表现出最弱的性能,提示其容易过拟合且对精确体重预测的准确性有限。然而,CART在分类(如体重类别)和识别育种计划中的关键形态性状方面仍然具有价值。
研究表明,数据挖掘(DM)和机器学习(ML)算法的比较性能在不同研究和物种间存在显著差异。集成方法的最新进展产生了特别稳健的结果,如XGBoost(XGB)和梯度提升(GBoost)在相关研究中显示出卓越的准确性。这些发现共同强调了算法性能的情境依赖性,其因物种、品种特征和数据集属性而有很大变化。
本研究得出结论,胸围(HG)是体重最可靠的预测指标,体长(BL)作为重要的次要预测指标,表明它们作为间接选择标准 combined 使用可提高埃塞俄比亚绵羊的生产效率。小农户和育种计划可以将这些形态性状纳入遗传改良策略,特别是在资源受限的环境中。RFR算法在从线性体尺指标估计体重方面表现出高预测准确性,为缺乏称重设备的农村地区提供了实用解决方案。虽然RFR被确定为最优方法,但SVR仍然是可行的替代方案,尽管精度稍低。为增强普适性,未来研究应在不同农业生态区使用更大数据集验证这些模型,并纳入年龄、性别和品种变异。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号