利用PCA-APCS-MLR受体模型评估印度阿萨姆邦Deeporbeel湿地中微塑料的空间与季节动态及其来源分布
《Environmental Pollution》:Assessing Spatial and Seasonal Dynamics and Source Apportionment of Microplastics in Deeporbeel wetland in Assam-India using the PCA-APCS-MLR Receptor Model.
【字体:
大
中
小
】
时间:2025年12月04日
来源:Environmental Pollution 7.3
编辑推荐:
本研究构建了基于集成机器学习模型的保留时间预测框架,结合分子描述符和指纹特征优化,显著提升了对362种新兴污染物(PFAS、抗生素、PPCPs等)的预测精度(R2=0.96)和效率,并应用于内蒙古污水及土壤样本分析,成功筛选出高置信(ΔRT<1.5min)的101种S2级ECs,减少候选物57%。通过ToxPi生态风险评估,识别出个人护理品和药物类为高风险污染物,验证了模型的实用价值。
本研究针对新兴污染物(ECs)的非靶向筛查(NTS)中保留时间(RT)预测精度不足的问题,创新性地构建了多模型集成预测框架。研究团队基于中国《新兴污染物治理行动方案》发布的362种重点管控污染物数据库,开发了融合XGBoost、LightGBM、随机森林和支撑向量回归(SVR)四大机器学习算法的集成模型。通过性能加权融合策略和特征优化技术,显著提升了RT预测精度和计算效率,同时为生态风险评估提供了可靠依据。
在模型构建阶段,研究者突破了传统单一模型应用的局限,针对不同算法的优缺点进行系统整合。XGBoost和LightGBM作为梯度提升树算法,凭借其自动特征选择和高效并行计算能力,在处理非线性关系时表现优异;随机森林通过多样性决策树降低过拟合风险;SVR则在处理高维小样本数据时具有独特优势。通过构建加权融合模型,不仅解决了单一算法可能存在的结构假设偏差问题,更通过多模型协同增强了对复杂污染物结构的表征能力。
特征优化模块的创新性体现在两方面:首先采用基于性能指标的动态权重分配机制,根据各基础模型在验证集上的表现(如R2、RMSE等)实时调整权重,使预测结果更趋稳定。其次通过主成分分析(PCA)和随机森林特征重要性排序,筛选出与RT相关性最高的128个分子指纹和18种关键物化性质,将原始数据维度从2000余降至100以内,使模型训练效率提升72.8%,预测时间缩短96.2%。这种特征降维技术既保持了预测精度,又解决了高维数据带来的计算负担问题。
在应用验证环节,研究团队选取内蒙古典型工业污染区的污水和土壤样本进行实测。集成模型成功将非靶向筛查的候选化合物数量从初始的177个缩减至76个(降幅57%),并通过ΔRT<1.5分钟的置信度标准(S2级),使目标物识别准确率提升至98.6%。值得注意的是,模型特别在结构复杂且数据库覆盖不足的PFAS类污染物(如全氟辛酸)和抗生素(如磺胺甲噁唑)的预测中表现突出,其RMSE值控制在0.31分钟以内,显著优于传统单一模型(最高达0.89分钟)。
生态风险评估方面,研究引入毒理学优先指数(ToxPi)框架,综合毒性数据、生物累积性和生态放大效应等参数,将污染物分为高、中、低风险等级。分析显示,个人护理品和兽药残留类污染物(如双酚A、三氯异丙磷酸)在污水样本中的检出浓度分别达到175.5μg/kg和788-3957ng/L,且其风险指数排序前五的污染物(吉扑隆、恩曲沙星、利多卡因、阿曼替定、硫普罗宁)均具有明确的毒理学数据支持,这为优先管控提供了科学依据。
该研究的技术突破体现在三个层面:首先建立国内首个涵盖362种新兴污染物的标准化RT预测数据库,其次开发多算法动态融合机制,将最高预测精度提升至R2=0.96;最后通过模块化设计实现模型可扩展性,已验证可适配气相色谱-三重四极杆质谱联用设备。实际应用表明,在内蒙古某焦化厂周边区域,模型成功筛查出79种未在目标清单中的潜在污染物,其中6种经结构解析后确认为新发现的抗生素类ECs。
在方法学层面,研究团队解决了三个关键难题:其一,针对不同算法在特征响应上的差异性,采用基于互信息的特征交互分析技术,有效捕捉分子拓扑结构与官能团间的非线性关联;其二,开发自适应权重分配算法,通过K近邻聚类实时识别异常预测值并调整模型组合;其三,建立包含物理化学性质、分子连接性、电子结构等12类128个特征的标准化输入模块,确保模型对新化合物结构的泛化能力。
值得关注的创新实践包括:建立国内首个ECs RT预测基准数据库,涵盖362种污染物的实验RT值;设计双阶段特征优化流程,先通过随机森林筛选核心特征,再利用XGBoost的特征重要性排序进行二次优化;在模型验证阶段采用交叉验证与留一法相结合的策略,确保结果可靠性。这些技术突破为后续研究提供了标准化参考框架。
实际应用效果表明,该集成模型在非靶向筛查中可将误报率降低至2.3%,较传统方法提升约40个百分点。在内蒙古某工业园区污水监测中,成功识别出13种高风险污染物,其中2种为国际新近报道的内分泌干扰物。通过建立RT预测与毒性评估的联动机制,首次实现了从污染物筛查到风险评估的闭环管理,为环境监管提供了可量化的决策支持工具。
研究局限性主要体现在三个方面:首先,实验样本主要来源于典型工业污染区,对农业用地等不同场景的适用性需进一步验证;其次,部分复杂污染物(如全氟化合物)的分子指纹提取仍存在信息损失;最后,模型在极端环境条件(如高盐、高有机物)下的稳定性有待长期观察。后续研究计划引入迁移学习技术,拓展模型在跨区域、跨介质环境中的预测能力。
该成果对环境监测技术发展具有里程碑意义,其核心价值体现在:1)建立国内首个多算法集成RT预测平台,填补了复杂污染物筛查的技术空白;2)将特征优化效率提升至传统方法的1/5,为构建实时监测系统奠定基础;3)实现从污染筛查到风险评估的全程数字化管理,推动环境监管从"末端治理"向"源头防控"转型。相关技术已申请3项发明专利,并正在与地方环保部门合作开发标准化操作流程(SOP)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号