利用自然语言处理技术对大型数据库进行分子性质预测:以离子液体设计为例

《Green Chemistry》:Molecular property prediction for very large databases with natural language processing: a case study in ionic liquid design

【字体: 时间:2025年11月06日 来源:Green Chemistry 9.2

编辑推荐:

  离子液体(ILs)的物化性质预测与设计 离子液体因其独特的物化性质和可调性,在多个工业应用中备受关注。本研究利用自然语言处理(NLP)的Mol2vec分子嵌入技术结合机器学习模型(CATBoost),成功预测了离子液体的七种关键性质:粘度、表面张力、离子电导率、密度、熔点、毒性和水活度。实验表明,Mol2vec嵌入方法在所有性质预测中均优于传统方法(如Morgan指纹、原子计数、σ-轮廓),其R2值最高达0.999,RMSE最低为0.063。通过大规模筛选(约10.6百万种新型ILs),本研究为生物质处理、CO?捕获和电池电解液提供了高效的设计工具,验证了NLP方法在加速绿色溶剂开发中的潜力。

  人工智能在处理和预测大量化合物数据库中的多种物理化学性质方面展现出巨大的潜力,然而,这一目标目前尚未完全实现。本文聚焦于离子液体(ILs)这一独特的研究对象,利用其在物理化学特性上的多样性和高度可调性,探索通过自然语言处理(NLP)技术结合先进的机器学习(ML)模型,对七种关键的IL性质进行准确预测的可能性。这些性质包括粘度、密度、离子电导率、表面张力、熔点、毒性和水溶解性。传统实验方法用于评估如此庞大的化合物组合显然是不现实的,因为其成本和时间消耗巨大。而基于物理原理的计算化学方法虽然具有坚实的理论基础,但计算成本同样高昂。因此,本文提出了一种新的解决方案,通过NLP驱动的分子嵌入技术,结合CATBoost机器学习算法,实现对IL性质的高效预测。

在方法部分,我们首先构建了一个包含大量实验数据的综合数据库,用于训练和验证模型。数据库的数据来源包括文献报道以及由美国国家标准与技术研究院(NIST)维护的ILThermo v2.0数据库。这些数据涵盖了多种IL性质,如表面张力、粘度、密度、离子电导率、熔点、水活性和毒性,每个性质都有相应的实验数据点和覆盖范围。通过将SMILES字符串转换为分子结构的表示形式,我们进一步探索了不同的分子特征提取方法,包括Mol2vec、Morgan指纹和σ-轮廓(COSMO-RS生成),以评估其在预测IL性质方面的表现。其中,Mol2vec基于Word2vec算法,通过将分子子结构视为“单词”,将整个分子视为“句子”,从而生成高维的向量表示。这种方法能够捕捉分子结构中的局部和全局化学环境,具有较高的信息丰富度和较低的计算成本。

在结果与讨论部分,我们对不同特征提取方法的预测性能进行了详细分析。通过计算R2值、均方根误差(RMSE)和平均绝对误差(MAE),评估了模型的准确性。结果表明,基于Mol2vec的NLP特征提取方法在所有测试的IL性质中表现最佳,R2值最高,RMSE和MAE值最低。这表明,Mol2vec能够有效地捕捉分子结构与性质之间的复杂关系,为高通量筛选提供强有力的支持。此外,为了进一步提高模型的可靠性和泛化能力,我们采用了虚拟集成(VE)方法,通过多次训练不同随机种子的模型,并将预测结果进行集成,以减少过拟合的风险。

在实际应用方面,我们展示了如何利用基于Mol2vec的ML模型对约1060万种生成的IL进行高通量筛选。通过设定特定的筛选标准,例如在生物质处理、CO?捕集和电池电解质设计中的性能需求,我们识别出具有理想性质的IL候选分子。例如,在生物质处理中,理想的IL需要具有较低的粘度、适中的表面张力和离子电导率、在室温下保持液态以及较低的毒性。我们还评估了这些IL在CO?捕集和电池电解质中的适用性,通过计算其水活性和离子电导率,确定了具有高捕集能力和良好电导性能的IL候选分子。这些筛选结果为实际工业应用提供了重要的参考,同时也为未来的IL设计和优化奠定了基础。

在与其他方法的比较中,我们发现Mol2vec在预测IL性质方面优于传统的σ-轮廓和Morgan指纹方法。例如,对于表面张力,Mol2vec的R2值达到0.990,而σ-轮廓和Morgan指纹的R2值分别为0.951和0.980。同样,在粘度和离子电导率的预测中,Mol2vec的性能也显著优于其他方法。这表明,基于NLP的分子嵌入方法在捕捉分子结构信息方面具有独特优势,能够更全面地反映分子的物理化学特性。

此外,我们还对IL的熔点和水活性进行了分类预测。在熔点预测中,通过将熔点分为“液态”(T? ≤ 300 K)和“固态”(T? > 300 K)两类,我们构建了分类模型,并通过准确率、混淆矩阵和ROC曲线等指标评估其性能。结果显示,基于Mol2vec的分类模型在测试集上表现出较高的准确率(0.844)和良好的分类能力。对于水活性,我们同样采用了分类方法,将其分为“亲水性”(γ ≤ 1)和“疏水性”(γ > 1),并发现基于Mol2vec的模型在测试集上的准确率达到0.997,这进一步证明了其在预测IL性质方面的可靠性。

在对文献中已有方法的比较中,我们发现基于Mol2vec的模型在多个方面均优于其他方法。例如,Lemaoui等人(2024)开发的深度学习模型在预测表面张力和粘度时表现较弱,其R2值分别为0.931和0.907,而我们的模型达到了0.990和0.987。此外,Chen等人(2024)使用σ-轮廓进行离子电导率预测,其R2值为0.773,远低于我们的模型。这表明,基于NLP的分子嵌入方法在处理复杂分子结构时具有更高的预测准确性和稳定性。

本文的研究不仅为IL的高通量筛选提供了新的工具,也为绿色化学的发展做出了贡献。通过AI和NLP技术,我们能够在不依赖昂贵实验测试的情况下,快速筛选出具有特定性能的IL候选分子。这不仅节省了时间和资源,还减少了对环境的影响。此外,我们还探讨了将生物可降解性、合成可得性和生命周期影响等绿色指标纳入筛选流程的可能性,这为未来的IL设计提供了新的方向。

在实际应用中,我们通过案例研究展示了基于Mol2vec的ML模型在生物质处理、CO?捕集和电池电解质设计中的潜力。例如,在生物质处理中,我们筛选出57种具有优异溶剂性能的IL候选分子,其中以磷onium基的IL为主。在CO?捕集中,我们发现某些含有(methylsulfonyl)acetonitrile([MSA]?)阴离子的IL表现出良好的捕集能力。而在电池电解质研究中,我们识别出117种具有高离子电导率和低粘度的IL候选分子,这些分子在实际应用中可能成为传统电解质的替代品。

总的来说,本文展示了基于NLP的分子嵌入技术在预测IL性质方面的强大能力。通过将SMILES字符串转换为高维向量表示,我们不仅能够准确预测多种物理化学性质,还能在不依赖复杂计算的情况下实现高通量筛选。这种方法为未来的IL设计和应用提供了新的思路,同时也为其他领域的分子性质预测提供了借鉴。随着AI和机器学习技术的不断发展,我们有理由相信,这种基于NLP的方法将在未来的化学和材料科学研究中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号