使用机器学习从小型数据集中预测马的行为,并结合大型语言模型(LLM)生成的解释
《Applied Animal Behaviour Science》:Predicting equine behavior from small datasets using machine learning with LLM-generated explanations
【字体:
大
中
小
】
时间:2025年11月08日
来源:Applied Animal Behaviour Science 2.2 2.2
编辑推荐:
恐惧性评估与机器学习模型构建在 Lipizzan 马中的应用研究
本研究聚焦于对马匹恐惧性进行分析和预测,这是建立牢固的人与动物关系、影响训练方法、任务选择以及预测对新刺激的反应的关键。通过跨学科方法,我们旨在识别用于预测马匹恐惧性的关键特征。研究采用了经典的机器学习技术,分析了49匹马的解剖结构、运动学特征以及饲养环境数据,并通过标准化的行为测试获得了恐惧评分。为确保评估的无偏性,我们采用了留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV)的方法。研究的主要贡献包括:(1)一种迭代特征选择方法,能够减少所需测量的次数,同时保持预测的准确性;(2)一个关于利皮赞马的独特数据集,揭示了头和身体的解剖特征在评估恐惧性中的关键作用;(3)确定了决策树算法作为预测马匹恐惧性的最准确机器学习方法;(4)将大型语言模型(Large Language Models, LLMs)整合到模型中,以生成清晰且可解释的文本解释,从而提高对关键预测特征的理解。本研究将行为科学与人工智能相结合,为马匹行为分析提供了一种新的AI驱动方法,具有实际应用价值,如马匹训练、选择和福利管理。
在研究的背景部分,我们强调了马匹性格评估的重要性,特别是恐惧性。马匹的个性差异要求个性化的处理和训练方法,以提高表现和福祉。传统的人格评估方法往往依赖于主观和线性评分,如性格评估和运动分析,这些方法缺乏一致性和客观性。因此,采用多因素方法追踪表型变化,能够提供更客观的评估。行为测试、问卷调查和生理指标(如心率)已被广泛使用;然而,解剖特征在评估性格特征方面仍处于研究的初级阶段。我们的初步研究(Debeljak et al., 2022)表明,解剖特征,尤其是头和身体的大小,与性格特征之间存在显著关系,这凸显了多因素方法的优势。
在方法部分,我们详细描述了数据收集、数据预处理、降维以及训练AI模型的流程。研究涉及49匹利皮赞马,数据包括人口统计学信息、饲养环境、行为和生物力学数据,以及解剖特征的测量。这些数据通过不同的工具和技术进行收集,如Equimetrix设备用于生物力学测量,计算机软件用于头和身体的测量,以及GoPro HERO 10摄像机用于记录行为数据。我们对每匹马进行了四次标准化恐惧测试,包括被动人类测试、伞测试、滚动球测试和袋子测试,以评估其对不同刺激的反应。最终的恐惧评分通过将四次测试的评分相加得出,范围为4到25,但在本研究中观察到的评分范围为7到19。
在数据预处理阶段,我们进行了数据的分析、转换和目标变量的标签化。数据由领域专家提供,分为六个表格,每个表格在不同的工作表中,并可通过GitHub链接获取。我们对每匹马的四次恐惧测试评分进行了计算,并根据平均评分将马匹分为恐惧(class 1)和不恐惧(class 0)两类,以创建二分类标签用于建模。最终数据集包含22匹被归类为更恐惧的马和27匹被归类为不太恐惧的马,确保了数据集的平衡。
在降维部分,我们探讨了多种方法,包括主成分分析(PCA)和相关性分析。PCA是一种数学转换方法,通过无相关成分减少维度,以保留大部分数据方差。然而,由于PCA将原始特征转换为线性组合,难以识别具体特征对恐惧反应的影响。因此,我们还使用了相关性分析,以识别和移除冗余特征,同时保持个体特征的直接可解释性。通过调整去除冗余特征的标准(如关注特定侧面或使用三角矩阵),我们研究了特征对模型性能的影响。
在训练AI模型阶段,我们使用了监督机器学习方法,以分析每匹马的恐惧性测试结果。我们比较了多种机器学习算法,包括逻辑回归(LR)、支持向量机(SVM)、决策树(DT)及其变体,如随机森林(RF)、AdaBoost(AB)、梯度提升(GB)和XGBoost(XGB)。考虑到数据集的小样本和高维度,我们采用了LOOCV进行模型性能评估,确保了模型预测的准确性和无偏性。实验结果显示,决策树算法在所有评估模型中表现最佳,达到了超过0.9的准确率。我们进一步优化了决策树模型,通过迭代特征提取方法,最终确定了8个关键特征,这些特征不仅提高了分类准确性,还显著减少了模型训练时间,从而提升了模型的效率和实用性。
在结果部分,我们展示了不同机器学习方法在不同特征选择策略下的性能评估。决策树算法在多个特征集上表现出色,特别是在保留所有特征和移除左相关特征的条件下。通过LOOCV验证,决策树模型在49匹马中正确分类了48匹,仅有一匹被错误分类,这在小样本数据集中是非常显著的。我们还生成了决策树的可视化,以帮助理解分类过程。通过分析这些关键特征,我们发现年龄、 trot速度以及特定的解剖测量(如眼睛内角与外角的距离、右耳高度等)对恐惧性预测具有重要意义。此外,我们还利用大型语言模型(LLM)如ChatGPT,生成了决策树模型的可读性解释,从而提升了模型预测结果的透明度和可解释性。
在讨论部分,我们分析了不同降维方法的优缺点。PCA在预测准确性方面表现良好,但其需要额外的计算和解释步骤,这在实际应用中可能不便于直接使用。相比之下,我们的迭代特征选择方法显著减少了所需测量的数量,同时保持了高预测准确性。决策树算法因其解释性强和适用于结构化数据而成为首选模型。此外,我们还发现,解剖特征(如年龄、trot速度和特定的头部和颈部测量)对恐惧性预测具有显著影响,而饲养环境则未对预测结果产生显著影响。这些发现为马匹的训练和选择提供了重要的参考,并强调了精确特征选择在行为分析中的重要性。
本研究的结论是,通过整合解剖、生物力学、行为和饲养环境特征,我们成功开发了一种有效的方法来预测马匹的恐惧性。该方法不仅提高了预测的准确性,还增强了模型的可解释性和实用性。未来的研究可以扩展数据集,探索更多的生理和环境特征,并将这种方法应用于其他动物群体和情境。此外,继续集成大型语言模型可以提高AI驱动分析的透明度,提供更清晰、上下文相关的模型输出解释。
总的来说,本研究为马匹行为分析提供了一种新的视角,结合了机器学习与行为科学,为改善人与马的关系、优化训练和选择方法以及提高马匹福利管理提供了重要的工具和方法。通过精确的特征选择和可解释的模型构建,我们不仅提升了预测的准确性,还为实际应用提供了更简便、高效的方法。这一跨学科的研究成果有望在动物行为学和人工智能领域产生深远影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号