基于两步人工智能框架的表面增强拉曼光谱技术实现混合污染物快速甄别与定量分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACS ES&T Water》：A Two-Step Artificial Intelligence Framework for Discriminating and Quantifying Mixed Pollutants

【字体：大中小】 时间：2026年01月01日 来源：ACS ES&T Water 4.3

编辑推荐：

　　本文开发了一种结合表面增强拉曼光谱（SERS）与人工智能（AI）的检测新策略，用于复杂水体中多环芳烃（PAHs）的快速筛查与定量分析。研究团队构建了名为PreDe的光谱预处理算法，可将SERS光谱数据压缩99.7%并保留关键特征。随后，一个包含判别器（Discriminator）和分类器（Classifier）的两步AI框架被用于识别PAH光谱并解混其组成。该框架在未接触过训练数据的情况下，对非PAH光谱（如农药）的拒识准确率高达100%。在分类器中，卷积神经网络（CNN）和随机森林（RF）模型在PAH混合物定量分析中表现出最高的预测精度和最低的均方误差（MSE），为复杂基质中污染物的高通量监测提供了强大工具。

材料与方法

SERS数据集

研究使用的SERS数据集主要包含两部分。第一部分是四种多环芳烃（PAHs）混合物的光谱数据，这四种PAHs分别是蒽（ANTH）、芘（PYR）、苯并[a]芘（BaP）和苯并[a]蒽（BaA）。该数据集由Bajomo等人先前收集并发表，涵盖了不同组成比例的混合物光谱。第二部分是农药数据集，作为非PAH干扰物用于测试模型的拒识能力。该数据集通过将100 μM的新烟碱类农药吡虫啉（imidacloprid）自来水溶液与金纳米颗粒（AuNP）胶体混合后，使用台式拉曼光谱仪（Horiba MacroRAM）采集拉曼光谱获得，共进行了21次平行测量。

SERS光谱预处理算法PreDe

为了将原始拉曼光谱转化为适合机器学习（ML）分析的低维、可解释矩阵，研究团队开发了名为PreDe的预处理算法。该算法包含三个关键步骤：基线校正（BC）、归一化（N）和降维（D）。基线校正旨在去除非拉曼光子信号产生的背景干扰；归一化通过最小-最大缩放将光谱强度缩放到[0, 1]区间，以消除测量条件和SERS热点变化引起的强度波动；降维步骤则通过自定义的聚类算法，从每个光谱中筛选出10个特征谱带，从而将每个PAH光谱从2 × 3760的矩阵压缩为2 × 10的矩阵，在保留关键拉曼特征的同时，显著降低了数据存储和计算成本。

用于PAH甄别与定量的AI工作流

整个AI工作流由两个机器学习组件构成：判别器（Discriminator）和分类器（Classifier）。判别器负责判断样本中是否含有PAHs，而分类器则负责在检测到PAHs后，对其组成进行定量分析。对于判别器，PAH光谱被分为66%的训练集和34%的测试集；对于分类器，则分为70%的训练集和30%的测试集。判别器通过计算测试样本与参考PAH光谱之间的交叉熵（Cross-entropy）来评估其相似性。交叉熵值高于经验阈值1.5的样本被判定为非PAH数据并直接拒识，低于该阈值的样本则被识别为PAH阳性，并送入分类器进行后续处理。分类器采用了四种机器学习回归模型进行PAH定量分析，包括卷积神经网络（CNN）、深度神经网络（DNN）、随机森林（RF）和支持向量回归（SVR）。

结果与讨论

利用PreDe降低SERS光谱维度

SERS光谱的预处理对于PAHs的准确识别和定量至关重要。PreDe算法通过基线校正和归一化，有效增强了关键光谱特征并提高了信噪比。随后的降维步骤通过选择10个特征谱带，在消除光谱噪声的同时，将SERS光谱压缩了99.7%以上。这种压缩后的表示不仅最大限度地减少了过拟合，还使得机器学习模型能够用更少的样本进行训练，解决了机器学习驱动化学传感中实验数据有限的长期挑战。

利用非PAH数据集验证甄别算法

经过PreDe预处理后的压缩光谱首先被送入AI框架中的判别器进行PAH识别。为了评估其识别和拒识的准确性，研究团队使用新烟碱类农药吡虫啉的SERS数据集对判别器进行了测试。结果显示，在没有判别器的情况下，分类器对非PAH光谱的拒识准确率为0%，且定量均方误差（MSE）超过0.44。相比之下，判别器能够正确识别所有PAH光谱（211个），并拒识所有非PAH光谱（205个），准确率达到100%，即使农药与PAHs之间存在部分光谱相似性。引入判别器还提高了计算效率和检测速度，因为非PAH光谱被排除在计算量更大的定量步骤之外。

利用ML分类算法定量PAH组成

在识别出PAH光谱后，预处理后的SERS数据被送入分类器模块，以估计四种目标PAHs的相对摩尔比。研究评估了四种机器学习回归模型（CNN、RF、DNN、SVR）的性能。总体而言，神经网络模型（CNN和DNN）和随机森林（RF）的表现显著优于支持向量回归（SVR），具有更高的预测精度和更低的均方误差（MSE）值。其中，CNN和RF模型取得了最高的预测精度（92%）和最低的预测误差（MSE分别为0.22和0.21），其预测的相对比率与真实值高度相关，几乎完美地分布在对角线附近。相比之下，DNN模型表现出明显的散点和偏差，而SVR模型则表现出最差的性能，预测值分散且偏差较大。

值得注意的是，所有机器学习模型的预测精度都强烈依赖于PAH混合物的组成平衡性。对于比例相对平衡的混合物（如[1:1:1:1]），所有模型的预测误差（以MSE表示）都保持在较低水平，通常低于0.5。然而，当混合物比例严重偏向单一PAH时（如[10,1,0,0]），光谱特征被主要组分所主导，导致次要组分的光谱贡献丢失，从而使得所有模型的均方误差（MSE）急剧升高，最高可达20.50。尽管如此，CNN模型在整个过程中保持了稳健的性能，其MSE值普遍低于或与其他模型相当，显示出其在复杂混合物组成分析中的可靠性和有效性。

结论

本研究开发了一种结合SERS测量、光谱预处理（PreDe）和两步AI解混的SERS-AI检测流程，用于自动识别和定量混合PAHs。PreDe算法在保留关键拉曼特征的同时，将光谱维度压缩了99.7%，显著降低了数据存储和计算成本。两步AI解混框架包含一个判别器和一个分类器，其中判别器能够以100%的准确率区分PAH光谱与非PAH光谱，而分类器中的CNN和RF模型则实现了最高的预测精度和最低的均方误差（MSE）。该SERS-AI流程实现了对PAHs的灵敏预筛选和选择性解混，为复杂环境基质中污染物的高通量监测提供了一种有前景的新策略。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号