编辑推荐:
为解决高光谱成像(HSI)检测羊肉食源性致病菌时特征波长多、解释性差的问题,研究人员采用 XGBoost-RFE-SHAP 筛选可见近红外(VNIR)和短波红外(SWIR)波段特征波长,结合 LSTM 建模。结果显示筛选后波长占比低且模型准确率高,为羊肉致病菌检测提供技术支持。
在食品安全的大舞台上,羊肉因其独特风味和高蛋白质含量备受青睐,然而,这也使其成为微生物生长的温床,大肠杆菌、沙门氏菌和金黄色葡萄球菌等食源性致病菌潜藏其中,严重威胁着人类健康与食品安全。当前,传统的食源性致病菌检测方法,如培养法和聚合酶链反应法,存在易受环境污染、耗时长、对操作人员技能和环境要求苛刻等问题。高光谱成像(Hyperspectral Imaging, HSI)技术虽凭借快速、绿色、易操作等优势在致病菌检测中崭露头角,但其获取的高维光谱数据存在大量冗余和共线性信息,不仅影响模型运行效率,还降低了预测准确性,且传统特征波长筛选方法存在所选波长数量多、解释性差的不足,因此,亟需一种高效的特征波长筛选及建模方法来提升检测效能。
为攻克上述难题,新疆农垦科学院分析测试中心微生物实验室的研究人员开展了相关研究,其成果发表在《Food Control》。该研究旨在利用 XGBoost-RFE-SHAP 方法筛选与羊肉食源性致病菌污染相关的特征波长,并结合深度学习模型建立高效检测模型,为羊肉食源性致病菌的快速检测提供新策略。
研究主要采用了以下关键技术方法:首先对光谱数据进行预处理,探讨了不同预处理方法(如二阶导数预处理)对模型的影响;然后运用 XGBoost-RFE-SHAP 方法进行特征波长筛选,该方法通过递归特征消除(Recursive Feature Elimination, RFE)迭代去除不重要特征,结合 XGBoost 评估变量重要性,再利用 SHapley Additive exPlanations(SHAP)解释特征贡献;最后结合长短期记忆网络(Long Short-Term Memory, LSTM)和一维卷积神经网络(One-Dimensional Convolutional Neural Network, 1D-CNN)建立检测模型。
分析原始光谱数据
对 280 份未污染致病菌和 280 份污染致病菌的羊肉样本在 VNIR 和 SWIR 波段的平均光谱反射率曲线分析发现,VNIR 波段在 510.90、585.91、746.88 和 820.40 nm 处有显著峰值,在 565.71、599.79 和 783.09 nm 处有显著谷值,其中 585 nm 处的谷值为高铁肌红蛋白的特征波长,747 nm 处的吸收峰可能由特定频率引起。
预处理方法对模型的影响
二阶导数(2nd-Der)预处理可提高偏最小二乘判别分析(PLS-DA)、支持向量机(SVM)和 LSTM 模型的准确率,但对 1D-CNN 模型无显著影响。
特征波长筛选结果
在 VNIR 波段,XGBoost-RFE-SHAP 筛选出的特征波长数量为 28 个,占全波段的 5.73%;在 SWIR 波段筛选出 19 个,占全波段的 8.52%。与遗传算法(GA)、竞争性自适应重加权算法(CARS)、顺序投影算法(SPA)等传统方法相比,该方法所选波长占比显著更低。
简化模型的性能
利用筛选出的特征波长结合 LSTM 建立简化检测模型,结果显示,VNIR 波段测试集和外部验证集准确率分别为 88.39% 和 85.71%,SWIR 波段均为 91.07%,表明该模型在特征数量较少的情况下仍具有良好性能。
研究结论表明,XGBoost-RFE-SHAP 是一种有效的高光谱特征波长筛选方法,能够在大幅减少波长数量的同时保留关键信息,结合 LSTM 建立的检测模型在羊肉食源性致病菌污染检测中表现出色。该研究不仅为高光谱数据的特征选择提供了新的技术思路,还为开发用于羊肉食源性致病菌检测的多光谱仪提供了理论依据和技术支持,有望推动快速检测技术在食品安全领域的应用,提升食品质量控制水平,保障消费者健康。