二氯乙腈形成机制的可推广机器学习模型:可解释性见解与模型可靠性框架

《Water Research》:Toward Generalizable Machine Learning Models for Dichloroacetonitrile Formation: Interpretable Insights and a Framework for Model Reliability

【字体: 时间:2025年10月18日 来源:Water Research 12.4

编辑推荐:

  本文综述了机器学习(ML)在预测饮用水消毒副产物二氯乙腈(DCAN)形成中的应用。研究通过构建大规模文献数据集,评估了CatBoost等模型的预测性能,并利用SHAP(SHapley Additive exPlanation)分析揭示了特征交互作用(如DOC与SUVA254的非线性关系)对DCAN生成的关键影响。作者进一步提出了可靠性指数(RI)框架,结合马氏距离(Mahalanobis distance)和单类支持向量机(One-Class SVM)评估模型泛化能力,为水质安全管理提供了可解释且可靠的预测工具。

  
章节亮点
数据编译与预处理
文献研究通过谷歌学术和科学网站进行,使用了基于关键词的查询,例如“消毒副产物 AND 卤乙腈”、“二氯乙腈”或“DCAN”、“氯化 AND 消毒副产物”、“氯胺化 AND 消毒副产物”。环境数据集常常存在缺失值的问题。这个问题在水处理实践中尤为普遍,数据缺口可能源于各种来源,包括研究...
数据集摘要
最终数据集包含2,013个数据点和24个特征。完整特征列表已在表S1中提供。它主要关注在两种主要消毒条件下:氯化(Cl2)和氯胺化(NH2Cl)下的DCAN形成。在总数据点中,1,346个属于Cl2消毒,650个属于NH2Cl消毒,还有17个数据点既未使用Cl2也未使用NH2Cl,而是仅使用了预氧化剂(例如,二氧化氯或臭氧)。DCAN的浓度范围从0到...
结论
这项研究汇编了一个关于不同水源、消毒剂和操作条件下DCAN形成的综合数据集,从而能够开发用于预测水处理中DCAN的稳健机器学习(ML)模型。当使用外部数据集进行验证时,这些模型表现出强大的性能,证实了其在更广泛环境应用中的可靠性和可推广性。通过SHAP分析获得的信息可以指导控制DCAN形成的处理策略...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号