利用机器学习算法,通过分析羊奶的红外光谱来追踪其来源
《Italian Journal of Animal Science》:Machine learning algorithms to trace the origin of milk from infra-red spectra in sheep
【字体:
大
中
小
】
时间:2025年11月07日
来源:Italian Journal of Animal Science 2.3
编辑推荐:
地理溯源是农食供应链的关键,本研究通过中红外光谱和机器学习方法,对意大利Sarda和Valle del Belice两种绵羊奶源进行海拔区溯源分析。实验收集905份奶样,对比LDA、GBM、SVM等7种模型的分类性能。结果表明LDA整体准确度最高(0.98),且计算时间最短(20秒)。针对不同品种,GBM更适合Sarda,而LDA更优于Valle del Belice。Hill组的分类效果最差,各模型计算耗时差异显著,RF耗时最长(20分钟),LDA仅用20秒。本研究验证了中红外光谱结合机器学习在奶源地理溯源中的可行性,为建立高效分类系统提供理论依据。
在现代食品供应链中,产品可追溯性对于保障消费者权益和提升市场透明度具有重要意义。特别是对于乳制品,如奶酪等,其地理来源往往直接影响产品的品质和市场价值。例如,某些地区生产的奶酪因其独特的风味和营养价值而受到消费者的青睐,从而形成特定的地理标志产品。为了保护这些品牌免受欺诈,研究者们正在探索更加高效和可靠的方法来确定乳制品的来源。其中,利用中红外光谱结合机器学习技术成为一种新兴的解决方案,这种方法不仅能够快速分析样品,还能在不破坏样品的前提下提供精确的地理信息。
本研究聚焦于意大利两种重要的乳用山羊品种:萨尔达(Sarda)和瓦莱德尔贝利切(Valle del Belice)。通过收集905个来自不同海拔区域的奶样,研究人员旨在测试多种机器学习模型在奶源地识别中的表现。所选样本覆盖了平原(≤200米)、丘陵(350–450米)和山区(>650米)三个不同的地理区域。数据集被划分为训练集(90%)和测试集(10%),并重复进行了1000次随机抽样以确保结果的稳定性。七种不同的机器学习模型被用于训练和预测,包括线性判别分析(LDA)、随机梯度提升机(GBM)、支持向量机(SVM)、递归分区稳健树(RPART)、随机森林(RF)、K-最近邻(KNN)以及偏最小二乘判别分析(PLS-DA)。这些模型在训练集上的表现被记录下来,并在测试集上进行验证,评估其分类准确率、敏感性、特异性以及F1分数等指标。
研究结果表明,LDA在整体数据集上表现最佳,准确率达到0.98,这与其计算速度快的特点相辅相成。LDA模型的高效性使其成为日常分类任务的理想选择。然而,对于萨尔达山羊品种,GBM模型在测试集上表现优于LDA,准确率为0.93,而LDA则在瓦莱德尔贝利切品种中表现最佳。此外,所有模型在丘陵区域的分类准确率最低,这可能与该区域的环境和饲料条件对奶成分的影响有关。丘陵地区的奶成分可能受到更多环境因素的干扰,从而增加了分类的难度。
从计算时间的角度来看,不同模型之间的差异显著。LDA和RPART的计算时间最短,通常只需几秒钟,而随机森林(RF)的计算时间则超过20分钟。这一结果表明,在追求高准确率的同时,计算效率也是一个不可忽视的因素。对于需要频繁进行分类的农业食品供应链来说,快速且准确的模型更具有实际应用价值。因此,LDA因其在准确率和计算速度上的良好平衡,被认为是一种极具潜力的分类方法。
研究还发现,模型的性能在不同品种之间存在差异。对于萨尔达山羊,GBM模型在分类能力上表现最佳,而LDA则在瓦莱德尔贝利切品种中表现突出。这表明,不同品种的奶成分差异可能影响模型的选择和表现。例如,萨尔达山羊的奶成分可能更复杂,需要更强大的模型来捕捉这些细微的变化,而瓦莱德尔贝利切的奶成分可能在某些方面更容易被模型识别。
在跨品种预测分析中,GBM模型在萨尔达数据集上训练后,用于预测瓦莱德尔贝利切的地理来源,其准确率显著下降。同样,当LDA模型在瓦莱德尔贝利切数据集上训练后,用于预测萨尔达的地理来源时,其准确率也有所降低。这表明,不同品种之间的奶成分差异可能较大,使得模型在跨品种预测时面临挑战。尽管如此,研究结果仍然显示,基于中红外光谱的机器学习方法在识别奶源地方面具有较高的潜力。
中红外光谱技术能够捕捉奶中分子的振动信息,这些信息与奶的成分密切相关。因此,奶的光谱特征可以被视为其地理来源的“指纹”。通过分析这些特征,研究人员能够区分不同地理区域的奶,并将其与特定的品种和环境条件联系起来。此外,研究还指出,随着机器学习技术的发展,越来越多的研究开始关注如何利用这些技术来提高奶源地识别的准确性。例如,有研究发现,LDA和PLS-DA的结合使用能够显著提高分类准确率,而随机森林(RF)在某些情况下表现更优。
值得注意的是,尽管机器学习模型在奶源地识别中表现出色,但其性能仍受数据特征的影响。例如,某些模型可能更适合处理高维数据,而另一些模型则在处理复杂分类任务时更具优势。因此,选择合适的模型需要根据具体的研究目标和数据特点进行权衡。此外,研究还强调了模型的可解释性,这在农业食品供应链中尤为重要,因为消费者和监管机构往往需要了解分类依据。
本研究的结果表明,基于中红外光谱的机器学习方法可以作为一种有效的工具,用于日常奶源地分类。这种方法不仅能够提高分类的准确性,还能减少分析时间和成本。然而,进一步的研究需要关注如何优化模型的性能,特别是在处理跨品种数据时。此外,还需要探索如何将这些方法应用于其他乳用动物品种,以扩大其在农业食品供应链中的应用范围。
在实际应用中,基于中红外光谱的奶源地识别技术可以为乳制品企业提供一种快速、经济且可靠的方法。通过这种方式,企业可以更好地控制产品质量,确保其符合地理标志产品的标准。同时,这种技术也有助于保护消费者的利益,防止因虚假标签而造成的经济损失。随着技术的不断进步,未来可能会有更多的研究致力于开发更加高效的模型,以满足不同应用场景的需求。
总的来说,本研究展示了机器学习在奶源地识别中的巨大潜力。通过比较不同模型的性能,研究人员为农业食品供应链提供了一种新的解决方案,有助于提升产品的可追溯性和市场价值。然而,实际应用中还需要考虑数据的多样性和模型的可解释性,以确保技术的可靠性和广泛适用性。未来的研究可以进一步探索如何优化模型的性能,特别是在处理复杂和高维数据时,以及如何将这些方法推广到其他乳用动物品种中。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号