基于人工智能的纳滤膜挥发性脂肪酸截留预测：合成数据增强策略与模型性能优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Water Process Engineering》：Artificial intelligence for predicting volatile fatty acids rejection in nanofiltration membranes

【字体：大中小】 时间：2026年01月06日 来源：Journal of Water Process Engineering 6.7

编辑推荐：

　　本研究针对环境技术中高质量数据集稀缺制约人工智能(AI)建模准确性的问题，系统探讨了部分合成数据集对CatBoost模型预测纳滤过程中挥发性脂肪酸(VFAs)截留性能的影响。研究人员测试了10种合成数据生成算法，发现适度增强(合成/实际数据比0.36-1.33)可将R2提升至0.937，而过度依赖合成数据会导致性能下降。引入最大均值差异(MMD)控制方法进一步提高了精度和模型可解释性，为压力驱动膜过程的AI建模提供了新思路。

在环境科学与技术领域，人工智能(AI)建模展现出预测工艺性能的巨大潜力，然而其应用常常受到高质量、综合性数据集稀缺的制约。特别是在压力驱动膜过程如纳滤(NF)技术中，由于实验成本高昂、耗时漫长，研究数据集通常规模较小，这严重限制了AI模型的准确性和泛化能力。数据稀缺问题使得样本量与特征量之比(SFR)往往低于推荐阈值，导致模型容易过拟合且预测性能不佳。

传统解决方案主要依赖特征选择来降低数据维度，但这种方法在极度缺乏数据的情况下效果有限。合成数据生成作为一种新兴策略，通过生成符合原始数据统计特性的新样本，为缓解数据稀缺问题提供了新思路。然而，合成数据在环境技术建模中的有效性、可靠性及其最佳使用策略仍有待系统研究。

在这项发表于《Journal of Water Process Engineering》的研究中，Stefano Cairone等学者针对纳滤膜挥发性脂肪酸(VFAs)截留预测这一具体问题，开展了一项创新性研究。团队系统评估了部分合成数据集对广泛使用的类别提升回归器(CatBoost)预测性能的影响，并探索了合成数据生成的最佳实践方案。

研究人员采用了几项关键技术方法：首先，基于80个纳滤实验数据点，通过相关性分析和递归特征消除(RFE)将特征从14个减少到5个关键参数；其次，测试了10种合成数据生成算法，包括高斯Copula(GC)、自举高斯扰动(BGP)、条件生成对抗网络(cGAN)等；第三，设计了6种不同合成/实际数据比例的组合(0.36-4.00)；第四，引入了最大均值差异(MMD)控制策略来约束合成数据分布；最后，采用SHapley加性解释(SHAP)分析评估模型可解释性。

特征选择与数据集构建方面，研究基于Pearson相关系数阈值(0.7)和RFE方法，确定了膜zeta电位(ζ)、进料pH、操作压力、纯水渗透性(PWP)和进料一价阴离子浓度五个关键特征。这一选择将SFR从4.3提升至12，满足了可靠建模的最低要求。原始数据集包含80个实验点，按75:25比例分为训练集和测试集。

合成数据生成算法比较显示，不同算法在预测性能上存在显著差异。高斯Copula(GC)、自举高斯扰动(BGP)和条件生成对抗网络(cGAN)在适度增强(合成/实际比0.36-1.33)情况下表现最佳，R²超过0.90。而高斯混合模型(GMM)在合成数据比例增加时性能下降最为明显，从组合1的0.909降至组合6的0.736。

合成/实际数据比例影响分析表明，适度增强(比例0.36-1.33)可显著改善预测性能，其中BGP在组合3达到最高R²值0.932，比基线(仅实际数据)提升5%。然而，当比例超过1.33后，所有算法性能均出现下降，表明过度依赖合成数据会引入噪声和失真，损害模型预测能力。

统计分布差异与模型性能关联分析发现，最大均值差异(MMD)与R²之间存在明显负相关(r = -0.75)。MMD值越大，表示合成数据与原始数据分布差异越大，模型性能越差。这一发现为控制合成数据质量提供了重要依据。

MMD控制策略验证结果显示，通过约束合成数据生成过程以最小化MMD，可进一步提升模型性能。在组合1中，MMD控制下的GC算法将R²从0.926提高至0.937。预测值与实际值对比表明，MMD控制策略使模型在整个数值区间都表现出更好的一致性和准确性。

模型可解释性分析通过SHAP蜜蜂群图实现。无论是基线模型还是MMD控制下的增强模型，进料pH、膜zeta电位(ζ)和操作压力始终是影响VFA截留预测的最重要特征，这一发现与已有实验研究高度一致。值得注意的是，合成数据的引入不仅没有破坏原有特征关系，反而使特征影响模式更加清晰稳定，特别是使pH和ζ的影响模式更加明确。

本研究通过系统评估合成数据在环境技术AI建模中的应用，得出几个重要结论：首先，适度使用合成数据(比例0.36-1.33)可有效提升模型预测性能；其次，合成数据质量至关重要，分布差异过大会导致性能下降；第三，MMD控制策略为合成数据生成提供了有效的质量控制方法；最后，合成数据增强在提升性能的同时，还能保持甚至改善模型的可解释性。

这项研究的重要意义在于为数据稀缺条件下的环境技术AI建模提供了实用框架。通过合理控制合成数据生成和使用，研究人员可在不增加实验成本的情况下显著提升模型性能。特别是MMD控制策略的引入，为合成数据在科学建模中的可靠使用提供了方法论基础。该研究不仅对纳滤膜过程优化有直接应用价值，其方法论框架也可推广至其他环境技术领域的AI建模中，为可持续发展目标下的资源回收技术开发提供了新思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号