基于图像特征和傅里叶变换红外光谱(FTIR)数据的高级多层次集成学习方法,用于精确识别微塑料和纳米塑料

《Journal of Water Process Engineering》:Advanced multi-level ensemble learning with image-based features and FTIR data for accurate identification of micro- and nanoplastics

【字体: 时间:2026年02月11日 来源:Journal of Water Process Engineering 6.7

编辑推荐:

  可靠识别微纳米塑料(MNPs)面临形态复杂、化学特征重叠及环境多变等挑战。传统方法存在破坏性、高成本和低效率问题,而AI模型在数据依赖性、噪声敏感性和相似聚合物区分上仍有局限。本文提出MELP多级集成学习框架,通过独立处理图像形态特征(MNPs识别)和FTIR光谱(MPs分类),结合分层集成策略(三级:基模型、分组集成、元学习),在干/湿条件及多基准数据集上均实现超98%准确率,并借助SHAP和PCA解释化学-光学关联特征。

  
Syed Kumail Hussain Naqvi | Ali Asgher Syed | Abrar Hussain | Kil To Chong | Hilal Tayara
韩国全罗北道全州市54896,全北国立大学综合能源-人工智能研究生院

摘要

由于微塑料和纳米塑料(MNPs)复杂的形态、重叠的化学特征以及环境变异性,对其的可靠识别仍然具有挑战性。传统的分析技术往往具有破坏性、成本高昂且劳动密集,这限制了它们在标准化和实时监测中的应用。尽管最近基于人工智能(AI)的方法提高了分析效率,但它们仍然存在一些关键局限性,包括对数据集的依赖性、对噪声的敏感性以及难以区分化学性质相似的聚合物。为了解决传统分析方法和当前基于AI的模型的这些局限性,本研究提出了一种统一、稳健且可解释的MELP(多级集成学习用于微纳米塑料)框架,以实现精确的MNPs识别。MELP是一种分层架构,分别应用于MNPs的图像衍生形态描述符和微塑料(MPs)的傅里叶变换红外(FTIR)光谱特征,采用在两种模式下都一致的模型配置,而不是单一的统一多模态网络。在受控成像实验中,MELP的性能超过了XGBoost基线方法:在干燥条件下实现了100%的黏土-塑料区分准确率以及99.8%的聚合物类型分类准确率;在湿润条件下,准确率分别保持在99.3%和95.7%。在FTIR基准测试中,MELP在准确性、精确度、召回率和Cohen’s kappa值方面均优于所有最先进的方法,包括深度神经网络(DNN)、集成模型和基于堆叠的MLStackXT框架。具体而言,MELP在Kedzierski数据集上的准确率为96.9%,在Jung数据集上为95.6%,在更具挑战性的Brignac数据集上为76.0%。混淆矩阵(CM)分析确认了错误分类的显著减少:在Kedzierski数据集的12个MPs中有9个的准确率为100%,在Jung数据集的5个MPs中有3个的准确率超过98%,在Brignac数据集的多个MPs上的准确率也超过了88%。使用SHapley Additive exPlanations(SHAP)和主成分分析(PCA)进行的可解释性分析进一步证实,MELP的决策是由具有化学意义的光谱特征驱动的,包括在紫外(UV)光照下的RGB比例以及与聚合物特定功能团相对应的FTIR光谱带分配,而非虚假的相关性。

引言

塑料污染是21世纪的一个关键环境问题,其中微塑料和纳米塑料(MNPs)因其持久性、微小尺寸以及在生态系统中的广泛分布而特别引人关注[1]。微塑料(MPs)是指尺寸小于5毫米的颗粒,而纳米塑料(NPs)的尺寸则更小[2]。这些颗粒主要通过物理、化学和生物过程从较大的塑料碎片中产生,而完全矿化过程极其缓慢,通常需要数十年甚至数千年[3]。因此,MNPs在环境基质中积累,对生态系统和人类健康构成日益增加的风险[4]。 尽管人们的意识不断提高,但准确检测和识别MNPs在技术上仍然具有挑战性。基于过滤的方法对MPs有效,但对更小的颗粒效率较低;而使用传统分离技术无法可靠地分离NPs[3] [5]。先进的方法如超滤、非对称流场流分离和热解-气相色谱-质谱提供了更高的分辨率,但这些方法具有破坏性、成本高昂,且不适合快速或现场分析[6] [7]。光谱技术(包括拉曼光谱和FTIR光谱)提供了非破坏性的化学表征,但常常受到信号弱、光谱重叠和解释复杂性的影响[4] [8] [9]。显微镜可以提供形态信息,但缺乏化学特异性;而质谱工作流程需要大量的样品准备和专用仪器[4]。因此,现有方法耗时较长,不适合标准化或实时的环境监测,目前还没有被广泛接受的综合MNPs识别方法[10]。在本研究中,术语的使用遵循了已建立的参考文献[4] [11] [12] [13]。基于图像的形态分析用于MNPs的分类,而基于FTIR的光谱分析仅限于MPs,因为FTIR仪器的固有尺寸限制。因此,根据分析方式的不同,一致地使用MNPs和MPs这两个术语。 机器学习(ML)作为一种有效策略出现,能够通过自动化和可扩展的方式从图像和光谱数据中对MNPs进行分类。经典的ML模型,包括支持向量机(SVM)和随机森林(RF),以及卷积神经网络(CNN),在基于图像和基于FTIR的MNPs分类任务中都表现出了良好的性能[14] [15] [16]。然而,单一模型方法仍然容易受到颗粒大小、聚合物相似性、环境变异性和数据异质性的影响,CNN在处理中间情况时常常遇到困难,或者仅适用于特定类型的颗粒(如微珠)[14]。这些局限性促使人们开发了基于集成学习的策略,以提高鲁棒性和泛化能力。 最近的研究探索了用于MNPs识别的集成学习和深度学习(DL)框架,特别是针对基于FTIR的MPs分析。结合多个ML分类器与神经网络或紧凑型前馈网络(DNN)的方法报告了更高的准确率和稳定性[12] [13]。其中,MLStackXT通过在多个基础学习器上叠加Extra Trees元学习器,并整合PCA和SHAP以提高可解释性,在Kedzierski FTIR数据集上实现了95.85%的准确率[11]。尽管在受控条件下的表现强劲,但这些框架仍受限于单层堆叠架构、数据集特定优化以及在异质或噪声数据集上的鲁棒性降低,这从Brignac等复杂基准测试中的性能下降中可以看出[17]。 对于基于图像的MNPs识别,使用XGBoost的ML辅助多光谱方法在现场检测方面显示出潜力[4]。然而,这些单一模型框架在环境复杂条件下(如干燥与湿润状态)的鲁棒性往往较低。同样,基于CNN的成像和FTIR框架虽然在实验室条件下表现出接近完美的准确率[18],但主要强调预测性能,并且对驱动模型决策的物理、光谱和形态特征的可解释性有限。在成像和FTIR两种模式下,经典ML模型、集成方法、DL方法和堆叠框架仍然容易受到数据集依赖性、噪声和光谱重叠的影响,限制了它们区分化学性质相似的聚合物以及在异质数据集上的泛化能力[11] [12] [13] [19]。 为了解决这些挑战,我们提出了MELP,这是一种用于基于图像的MNPs识别和基于FTIR的MPs分类的多级集成学习框架。MELP旨在通过引入分层集成策略来克服现有单一模型和单层堆叠方法的局限性,从而提高在异质数据集上的鲁棒性和泛化能力。重要的是,基于图像和光谱的模式通过独立但结构一致的MELP流程进行处理,允许框架适应特定模式的变异性,而无需进行特征融合。本研究的主要贡献总结如下:
  • 我们提出了MELP,这是一种多级集成框架,它结合了用于MNPs识别的图像衍生形态描述符和用于MPs识别的FTIR光谱特征。
  • MELP采用了一种新的分层架构,包括三个层次:第0层的多样化基础学习器、第1层的组合集成器,以及第2层的最终堆叠元学习器,从而逐步提高预测准确性、稳定性和泛化能力。
  • 在干燥条件下的MNPs成像研究中,MELP实现了黏土-塑料和聚合物类型的高精度分类。
  • 在湿润条件下的MNPs成像研究中,MELP保持了强大的性能,显示出对散射和湿度效应的鲁棒性。
  • 在基于FTIR的MPs分析中,MELP始终优于基线经典ML模型、集成方法、基于DL的模型和基于堆叠的框架。
  • 在多个FTIR基准数据集上,MELP展示了比以往报告的方法更强的泛化能力。
  • MELP还通过SHAP和PCA提供了透明的可解释性,将模型决策与聚合物特定的化学和光学特征联系起来,使其成为下一代MNPs分析的可扩展和可信框架。
本文的其余部分结构如下:第2节介绍了统一的材料和方法框架,包括数据集描述、预处理程序、MELP模型架构、超参数优化、交叉验证策略和评估指标。第3节报告了实验结果,并对基于图像的MNPs和基于FTIR的MPs识别任务的结果进行了综合讨论。第4节总结了研究并指出了未来的研究方向。

数据集片段

MNPs样本数据集

对于MNPs的识别,采用了Tang等人[4]最初开发的数据集。选择了六种具有代表性的塑料:低密度聚乙烯(LDPE)、尼龙、聚对苯二甲酸乙二醇酯(PET)、聚甲基丙烯酸甲酯(PMMA)、聚苯乙烯(PS)和聚氯乙烯(PVC)。所有材料均从商业供应商(United States Plastic Corp.、Safeway、BrandTech Scientific和Fisher Scientific)处获得。每种塑料都经过清洗、干燥,并切割成大小为1厘米的碎片。

结果与讨论

本节展示了使用综合的图像衍生和FTIR光谱特征对MELP框架进行MNPs识别的全面评估结果。MELP是一种分层堆叠集成框架,结合了多样化的基础学习器、组合集成器和元学习器,从而解决了传统单一分类器和同质集成中常见的聚合物特征重叠、类别不平衡和泛化能力有限等问题。

结论

本研究提出了MELP,这是一种多级集成学习框架,它结合了用于MNPs的图像衍生形态描述符和用于MPs的FTIR光谱特征,以实现全面的塑料识别。通过精心设计的集成架构,MELP在异质条件和数据集下实现了准确性、鲁棒性和可解释性。在受控成像实验中,MELP在干燥和湿润条件下始终优于基线XGBoost模型。

CRediT作者贡献声明

Syed Kumail Hussain Naqvi:撰写——原始草稿、软件、方法论、概念化。 Ali Asgher Syed:软件、方法论、概念化。 Abrar Hussain:可视化、形式分析。 Kil To Chong:验证、监督、项目管理、方法论、调查、概念化。 Hilal Tayara:撰写——审稿与编辑、监督、概念化。

写作过程中生成式AI和AI辅助技术的声明

生成式AI(ChatGPT、OpenAI)仅用于在手稿准备过程中进行语法润色和语言清晰度的改进。该工具产生的所有输出都经过了作者的仔细审查、编辑和验证。作者声明他们对本文内容的原创性、准确性和完整性负全责。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了JuYoungBio Co., Ltd的财政支持。作者感谢该公司对研究活动和手稿准备提供的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号