基于优化机器学习模型的水稻籽粒有毒元素积累分类:比较研究与农业应用前景

《Journal of Food Composition and Analysis》:Classification of toxic element accumulation in rice grains using optimized machine learning models: A comparative study

【字体: 时间:2025年10月30日 来源:Journal of Food Composition and Analysis 4.6

编辑推荐:

  本研究针对水稻籽粒中有毒元素积累引发的食品安全问题,系统比较了随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)、XGBoost和人工神经网络(ANN)五种机器学习模型在预测有毒元素积累方面的性能。研究发现LR(75.86%)和ANN(72.41%)模型表现最优,特征重要性分析确定了铜(Cu)、锌(Zn)和锰(Mn)等关键必需元素对有毒元素积累的影响。该研究为开发数据驱动的农业安全策略提供了重要技术支撑,对制定水稻食品安全政策具有指导意义。

  
民以食为天,水稻作为全球半数人口的主粮,其安全性直接关系到人类健康。然而,随着工业化和农业现代化进程的加快,水稻田中砷(As)、镉(Cd)、铅(Pb)等有毒元素的积累问题日益严重。这些有毒元素通过土壤、灌溉水和农业实践进入水稻植株,最终在籽粒中富集,长期摄入会对人体造成严重健康风险。与此同时,水稻中的钴(Co)、铜(Cu)、铁(Fe)等必需微量元素虽然对人体健康至关重要,但其不平衡可能会影响有毒元素的吸收,进一步加剧食品安全隐患。
传统研究方法往往局限于单一有毒元素的分析,或采用传统统计方法难以捕捉元素间复杂的非线性关系。尽管已有研究关注孟加拉国水稻中的砷污染问题,但同时考察必需元素和有毒元素的综合研究仍然匮乏。机器学习(ML)技术的兴起为解决这一难题提供了新思路,但其在水稻有毒元素积累预测中的比较研究尚不充分。
在此背景下,来自纽卡斯尔大学全球环境修复中心的研究团队在《Journal of Food Composition and Analysis》上发表了一项创新性研究,系统比较了五种机器学习模型在预测水稻籽粒有毒元素积累方面的性能。该研究不仅填补了多元素综合分析的技术空白,还为食品安全风险评估提供了可靠的数据驱动方法。
研究人员采用了多种关键技术方法开展此项研究。他们收集了来自孟加拉国不同地区的144份水稻样本,使用电感耦合等离子体质谱(ICP-MS)和电感耦合等离子体光学发射光谱(ICP-OES)技术测定了7种必需元素和5种有毒元素的含量。研究比较了随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)、XGBoost和人工神经网络(ANN)五种机器学习模型的预测性能,采用80%训练集和20%测试集的划分方式,并结合5折交叉验证确保结果可靠性。通过特征重要性分析和主成分分析(PCA)探究了元素间相互作用和地理分布特征。

3.1. 机器学习模型性能比较

研究结果显示,不同机器学习模型在预测有毒元素积累方面表现出显著差异。逻辑回归(LR)以75.86%的准确率位居榜首,展现出优异的分类能力。人工神经网络(ANN)以72.41%的准确率紧随其后,证明其处理非线性关系的能力。支持向量机(SVM)取得65.52%的中等成绩,而随机森林(RF)和XGBoost分别只有55.17%和44.83%的准确率,主要受限于数据集规模较小导致的过拟合问题。
在精确度方面,LR模型达到85.71%的最高值,表明其在识别有毒元素方面具有高度可靠性。相反,XGBoost的召回率(25%)和F1分数(27.27%)最低,反映出其在小型数据集上的不稳定性。混淆矩阵分析进一步证实了这些结果,LR和ANN模型的误分类较少,而RF和XGBoost的错误率较高。

3.2. 特征重要性分析

通过RF和XGBoost模型进行的特征重要性分析揭示了影响水稻籽粒有毒元素积累的关键因素。钼(Mo)被确定为最具影响力的特征元素,在两种模型中均表现出最高的重要性评分。铜(Cu)、锌(Zn)和锰(Mn)也被识别为重要贡献者,这些必需元素与镍(Ni)和铬(Cr)等有毒元素的积累存在显著关联。值得注意的是,XGBoost模型的特征排名相对不稳定,这与其在小数据集上容易过拟合的特性相符。

3.3. PCA分析地理变异

主成分分析成功揭示了有毒元素积累的地理分布模式。前两个主成分累计解释了50%的总方差,其中铬(Cr)和镍(Ni)对第一主成分的贡献最大(分别为34%和31%),而镉(Cd)和砷(As)对第二主成分的贡献最为显著(各占34%)。铅(Pb)在两个维度上均表现出中等贡献度,表明其污染来源的复杂性。
地理分布分析显示,库米拉和博拉等地区的样本聚集紧密,表明这些地区的重金属污染特征相对一致。相比之下,班多尔班、兰加马蒂和萨特基拉等地区样本分布分散,反映出污染水平的异质性。这种空间变异性与土壤矿物组成、灌溉水质、耕作方式和水稻基因型等多种因素密切相关。

3.4. 优势与局限性

本研究的主要优势在于其多模型比较的研究设计、稳健的验证方法以及创新的特征重要性分析框架。然而,144个样本的数据集规模限制了某些模型(特别是XGBoost和RF)的泛化能力。未来研究需要通过扩大样本量、纳入更多环境参数和探索更复杂的深度学习架构来进一步提升预测模型的准确性。
研究结论强调,逻辑回归(LR)和人工神经网络(ANN)模型在水稻有毒元素积累预测方面表现出最佳性能,为食品安全风险评估提供了可靠工具。特征重要性分析确定的钼(Mo)、铜(Cu)、锌(Zn)等关键元素为理解元素间相互作用机制提供了新见解。主成分分析揭示的地理分布模式为制定区域特异性食品安全政策提供了科学依据。
这项研究的创新之处在于首次系统比较了多种机器学习方法在水稻有毒元素积累预测中的应用,建立了综合考虑必需元素和有毒元素的综合分析框架。研究成果不仅推动了机器学习在农业食品安全领域的应用,也为制定针对性的污染防控策略提供了数据支持。随着数据集规模的扩大和深度学习技术的进一步发展,这种数据驱动的方法有望在全球食品安全监测中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号