基于结构的机器学习与标准化特征选择方法,用于筛选具有高氨捕获能力的金属有机框架(MOFs)

《Process Safety and Environmental Protection》:Structure-Based Machine Learning with Standardized Feature Selection for Screening MOFs with High Ammonia Capture Capacity

【字体: 时间:2025年10月02日 来源:Process Safety and Environmental Protection 7.8

编辑推荐:

  氨吸附MOFs筛选中,本研究开发标准化机器学习框架,整合198维结构特征(几何+RDKit衍生),经四步特征筛选(方差过滤、LightGBM重要性、Pearson相关性、前向选择)构建高精度随机森林模型,结合SHAP分析和工程评估(可迁移性、设计窗口、再生性等),为工业级氨吸附MOFs高效筛选提供方法学支持。

  氨气是一种广泛用于工业原料和新兴氢载体的腐蚀性和有害气体。为了保障工艺安全并减少工业排放对空气的污染,必须对氨气进行有效捕获。金属-有机框架(MOFs)因其可调节的孔隙率和表面化学特性,成为氨气捕获的有前景材料。然而,传统实验方法在筛选效率和成本方面存在局限,难以实现系统和全面的性能评估。因此,高通量计算筛选(HTCS)方法应运而生,成为识别高性能MOFs的高效准确手段。HTCS通过使用大规范蒙特卡洛(GCMC)模拟,对气体吸附行为进行分子级建模,从而基于统计力学原理高效预测吸附性能。

随着人工智能技术的发展,机器学习(ML)方法被越来越多地整合到HTCS过程中,进一步提升了筛选效率和适用性。ML模型能够从有限的模拟数据中学习,显著提高筛选效率,同时保持较高的预测准确性,从而实现对大量MOFs数据库的快速性能预测和捕获筛选。这种技术已经成为推进MOF材料智能筛选的关键策略。例如,Thornton等人结合分子模拟与神经网络(NN)建模,筛选了约85万种纳米多孔材料,最终识别出MOF-210作为最佳候选材料。Halder等人基于h-MOFs数据库,整合分子模拟与ML方法,成功识别出MNGC-353295作为用于乙烷和乙烯分离的最有效材料。Keskin等人利用CoRE-MOFs数据库训练ML模型,并将其应用于hypoMOFs库,成功预测出一组性能优异的假设MOFs,如hypoMOF-id 137444,其在甲烷/氮气分离中表现优于现有的实验MOFs。

尽管将ML与HTCS结合用于MOF筛选展现出广阔前景,但此类模型的发展仍受到系统性和严谨性特征选择策略缺失的限制。一方面,在缺乏标准化特征选择策略的情况下,模型的效度和泛化能力高度依赖于研究人员对输入特征的个人选择。另一方面,新特征的发现仍然有限,大多数研究主要集中在热力学变量上,如吸附热和亨利常数,这限制了探索更多样化和互补的特征维度,从而阻碍了MOFs性能的进一步提升。此外,对输入特征如何影响模型预测的理解仍然有限,这限制了对MOFs结构-性能关系的深入探索。

为了解决这些问题,本研究提出了一种标准化的特征工程框架,旨在扩展描述符的多样性并构建高精度模型,用于预测MOFs材料的氨气捕获性能。为了评估所选描述符的实用性并增强模型行为的可解释性,还引入了多层面的可解释性分析。具体而言,本研究系统地引入了来自RDKit库的190种结构描述符,并将其与传统的几何特征相结合,构建了一个高维且信息丰富的特征集。随后,实施了一个多步骤的特征选择过程,包括方差阈值过滤、基于LightGBM的特征重要性分析、皮尔逊相关性分析以及向前特征选择。通过这一系统过程,最终的特征子集涵盖了多个描述符类别,并捕捉了多样化的结构视角。

基于最终的特征子集,通过模型比较选择了鲁棒且高表现的随机森林分类模型,并构建了用于预测氨气捕获性能的模型。此外,基于SHAP和比较模型,进行了多视角的可解释性分析,以评估所选描述符的实际贡献,包括其有效范围,并增强模型预测行为的可解释性。除了可解释性,还进行了集成的工程应用评估,包括模型的迁移性验证、设计窗口识别、体积性能指标、突破时间估计以及稳定性与再生的初步考虑。总体而言,本研究提供了一种高效且可行的方案,用于筛选具有高氨气捕获性能的MOFs,并建立了由多样性和多维结构描述符驱动的通用ML框架。除了方法上的进展,工程导向的评估强调了该框架的转化价值,展示了其在工业氨气捕获场景中指导材料选择和工艺设计的能力。

在GCMC模拟和特征构建方面,本研究使用的所有MOF结构均来自CoRE-MOF 2019数据库,最初选择了12,020种结构。为了确保这些结构适用于氨气捕获,排除了孔径限制直径(pld)小于3.65 ?的结构,这是氨气分子的动能直径,以及可访问表面积(ASA)为0的结构。这一筛选过程结果得到了6,023种具有足够孔隙率和可吸附表面积的MOF结构。这些结构的筛选确保了后续模拟和模型构建的准确性,为氨气捕获性能的预测提供了坚实的基础。

在特征选择方面,第一步采用了方差阈值过滤策略,以消除方差较低、信息价值有限的特征。结果是,特征数量从198减少到180,有效去除了冗余变量,同时保留了关键信息。这为后续的特征选择步骤提供了一个更简洁的特征集。在此基础上,评估了剩余180个特征的重要性,使用了基于LightGBM的分析方法。这一过程不仅帮助识别出对模型预测最具影响力的特征,还进一步优化了特征集的结构,为构建高性能模型打下了基础。

为了进一步提升模型的可解释性,本研究引入了多层面的可解释性分析。具体来说,利用SHAP(Shapley Additive Explanations)方法,结合比较模型,对所选特征的实际贡献进行了评估,包括其有效范围,从而增强了模型预测行为的可解释性。这一分析不仅有助于理解特征如何影响模型预测,还揭示了MOFs的结构-性能关系,为后续的工程应用提供了理论支持。

在工程应用评估方面,本研究进行了综合评估,包括模型的迁移性验证、设计窗口识别、体积性能指标、突破时间估计以及稳定性与再生的初步考虑。迁移性验证确保了模型在不同数据库中的适用性,而设计窗口识别则帮助确定MOFs材料在实际应用中的最佳性能范围。体积性能指标评估了MOFs在单位体积内的捕获能力,突破时间估计则预测了在实际操作中,MOFs材料能够有效捕获氨气的时间。稳定性与再生的初步考虑则评估了MOFs材料在长期使用中的可靠性和可重复性,为实际工程应用提供了关键的参考依据。

本研究通过系统化的特征工程和多层面的可解释性分析,构建了一个高效且可行的机器学习框架,用于预测MOFs材料的氨气捕获性能。该框架不仅整合了多种结构描述符,还通过多步骤的特征选择策略,优化了特征集的结构,提升了模型的预测能力和可解释性。此外,工程导向的评估进一步强化了该框架的实用性,使其能够指导材料选择和工艺设计,为工业氨气捕获提供了理论和技术支持。通过这一研究,不仅为MOFs材料的筛选提供了新的思路,还为未来的高通量计算筛选和机器学习应用奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号