《ACS ES&T Water》:A Two-Step Artificial Intelligence Framework for Discriminating and Quantifying Mixed Pollutants
编辑推荐:
本文开发了一种结合表面增强拉曼光谱(SERS)与人工智能(AI)的检测新策略,用于复杂水体中多环芳烃(PAHs)的快速筛查与定量分析。研究团队构建了名为PreDe的光谱预处理算法,可将SERS光谱数据压缩99.7%并保留关键特征。随后,一个包含判别器(Discriminator)和分类器(Classifier)的两步AI框架被用于识别PAH光谱并解混其组成。该框架在未接触过训练数据的情况下,对非PAH光谱(如农药)的拒识准确率高达100%。在分类器中,卷积神经网络(CNN)和随机森林(RF)模型在PAH混合物定量分析中表现出最高的预测精度和最低的均方误差(MSE),为复杂基质中污染物的高通量监测提供了强大工具。
材料与方法
SERS数据集
研究使用的SERS数据集主要包含两部分。第一部分是四种多环芳烃(PAHs)混合物的光谱数据,这四种PAHs分别是蒽(ANTH)、芘(PYR)、苯并[a]芘(BaP)和苯并[a]蒽(BaA)。该数据集由Bajomo等人先前收集并发表,涵盖了不同组成比例的混合物光谱。第二部分是农药数据集,作为非PAH干扰物用于测试模型的拒识能力。该数据集通过将100 μM的新烟碱类农药吡虫啉(imidacloprid)自来水溶液与金纳米颗粒(AuNP)胶体混合后,使用台式拉曼光谱仪(Horiba MacroRAM)采集拉曼光谱获得,共进行了21次平行测量。
SERS光谱预处理算法PreDe
为了将原始拉曼光谱转化为适合机器学习(ML)分析的低维、可解释矩阵,研究团队开发了名为PreDe的预处理算法。该算法包含三个关键步骤:基线校正(BC)、归一化(N)和降维(D)。基线校正旨在去除非拉曼光子信号产生的背景干扰;归一化通过最小-最大缩放将光谱强度缩放到[0, 1]区间,以消除测量条件和SERS热点变化引起的强度波动;降维步骤则通过自定义的聚类算法,从每个光谱中筛选出10个特征谱带,从而将每个PAH光谱从2 × 3760的矩阵压缩为2 × 10的矩阵,在保留关键拉曼特征的同时,显著降低了数据存储和计算成本。
用于PAH甄别与定量的AI工作流
整个AI工作流由两个机器学习组件构成:判别器(Discriminator)和分类器(Classifier)。判别器负责判断样本中是否含有PAHs,而分类器则负责在检测到PAHs后,对其组成进行定量分析。对于判别器,PAH光谱被分为66%的训练集和34%的测试集;对于分类器,则分为70%的训练集和30%的测试集。判别器通过计算测试样本与参考PAH光谱之间的交叉熵(Cross-entropy)来评估其相似性。交叉熵值高于经验阈值1.5的样本被判定为非PAH数据并直接拒识,低于该阈值的样本则被识别为PAH阳性,并送入分类器进行后续处理。分类器采用了四种机器学习回归模型进行PAH定量分析,包括卷积神经网络(CNN)、深度神经网络(DNN)、随机森林(RF)和支持向量回归(SVR)。
结果与讨论
利用PreDe降低SERS光谱维度
SERS光谱的预处理对于PAHs的准确识别和定量至关重要。PreDe算法通过基线校正和归一化,有效增强了关键光谱特征并提高了信噪比。随后的降维步骤通过选择10个特征谱带,在消除光谱噪声的同时,将SERS光谱压缩了99.7%以上。这种压缩后的表示不仅最大限度地减少了过拟合,还使得机器学习模型能够用更少的样本进行训练,解决了机器学习驱动化学传感中实验数据有限的长期挑战。
利用非PAH数据集验证甄别算法
经过PreDe预处理后的压缩光谱首先被送入AI框架中的判别器进行PAH识别。为了评估其识别和拒识的准确性,研究团队使用新烟碱类农药吡虫啉的SERS数据集对判别器进行了测试。结果显示,在没有判别器的情况下,分类器对非PAH光谱的拒识准确率为0%,且定量均方误差(MSE)超过0.44。相比之下,判别器能够正确识别所有PAH光谱(211个),并拒识所有非PAH光谱(205个),准确率达到100%,即使农药与PAHs之间存在部分光谱相似性。引入判别器还提高了计算效率和检测速度,因为非PAH光谱被排除在计算量更大的定量步骤之外。
利用ML分类算法定量PAH组成
在识别出PAH光谱后,预处理后的SERS数据被送入分类器模块,以估计四种目标PAHs的相对摩尔比。研究评估了四种机器学习回归模型(CNN、RF、DNN、SVR)的性能。总体而言,神经网络模型(CNN和DNN)和随机森林(RF)的表现显著优于支持向量回归(SVR),具有更高的预测精度和更低的均方误差(MSE)值。其中,CNN和RF模型取得了最高的预测精度(92%)和最低的预测误差(MSE分别为0.22和0.21),其预测的相对比率与真实值高度相关,几乎完美地分布在对角线附近。相比之下,DNN模型表现出明显的散点和偏差,而SVR模型则表现出最差的性能,预测值分散且偏差较大。
值得注意的是,所有机器学习模型的预测精度都强烈依赖于PAH混合物的组成平衡性。对于比例相对平衡的混合物(如[1:1:1:1]),所有模型的预测误差(以MSE表示)都保持在较低水平,通常低于0.5。然而,当混合物比例严重偏向单一PAH时(如[10,1,0,0]),光谱特征被主要组分所主导,导致次要组分的光谱贡献丢失,从而使得所有模型的均方误差(MSE)急剧升高,最高可达20.50。尽管如此,CNN模型在整个过程中保持了稳健的性能,其MSE值普遍低于或与其他模型相当,显示出其在复杂混合物组成分析中的可靠性和有效性。
结论
本研究开发了一种结合SERS测量、光谱预处理(PreDe)和两步AI解混的SERS-AI检测流程,用于自动识别和定量混合PAHs。PreDe算法在保留关键拉曼特征的同时,将光谱维度压缩了99.7%,显著降低了数据存储和计算成本。两步AI解混框架包含一个判别器和一个分类器,其中判别器能够以100%的准确率区分PAH光谱与非PAH光谱,而分类器中的CNN和RF模型则实现了最高的预测精度和最低的均方误差(MSE)。该SERS-AI流程实现了对PAHs的灵敏预筛选和选择性解混,为复杂环境基质中污染物的高通量监测提供了一种有前景的新策略。