利用群贡献-高斯过程回归结合不确定性量化技术提升热物理性质预测的准确性

《Molecular Systems Design & Engineering》:Enhanced thermophysical property prediction with uncertainty quantification using group contribution-Gaussian process regression

【字体: 时间:2025年10月28日 来源:Molecular Systems Design & Engineering 3.2

编辑推荐:

  热物理性质预测,群体贡献模型,高斯过程回归,不确定性量化,分子量,系统偏差纠正,实验数据集,机器学习,高斯过程,分子设计

  在现代材料科学和化学工程领域,准确预测材料的热力学性质对于加速新物质的发现和优化工艺设计至关重要。传统的分子结构分析方法通常需要大量的实验数据,这在实际应用中既不现实也不高效。为了克服这一限制,科学家们提出了将群体贡献(Group Contribution, GC)模型与高斯过程(Gaussian Process, GP)回归相结合的新方法,即GCGP方法。该方法不仅提高了预测的准确性,还提供了可靠的不确定性估计,为材料筛选和设计提供了更全面的支持。

GC模型因其简洁性和通用性,长期以来被用于预测分子的热力学性质,尤其是在计算机辅助分子设计(Computer-Aided Molecular Design, CAMD)和材料发现流程中。这类模型通过将分子分解为预定义的功能基团,并基于实验数据为每个基团分配特定的贡献值来工作。然而,现有的GC模型,如Joback和Reid(JR)方法,虽然在计算效率和可访问性方面表现良好,却常常存在显著的系统偏差。此外,大多数GC模型并不提供对预测结果的不确定性评估,这在材料筛选中可能带来潜在的风险。

相比之下,GP回归模型具有固有的不确定性量化能力,这使其成为处理有限数据和复杂模型的理想选择。然而,GP模型在处理高维数据时存在一定的局限性,尤其是在需要处理大量输入特征或多个输出的情况下。为了结合两者的优点,GCGP方法采用简单的GC模型预测结果与分子量(Molecular Weight, MW)作为输入特征,从而避免了高维输入可能带来的“维度诅咒”问题,同时保留了GP的预测能力和不确定性估计功能。

本研究中,GCGP方法被应用于六种热力学性质:正常沸点(Tb)、沸点处的汽化焓(ΔHvap)、正常熔点(Tm)、临界压力(Pc)、临界摩尔体积(Vc)和临界温度(Tc)。这些性质在材料筛选和设计过程中具有重要意义,例如Tb和Tm在涉及相变的工程模型中被广泛使用,而Pc和Vc则用于评估新流体的稳定性和操作条件。研究数据主要来源于《CRC Handbook of Chemistry and Physics》和Yaws的数据库,其中ΔHvap的数据来源还包含了其他补充资源。最终收集的实验数据量在不同性质之间存在显著差异,例如ΔHvap仅收集了485个数据点,而Tm则拥有高达5640个数据点。

为了提高预测的准确性,GCGP方法利用GP模型来学习并纠正GC预测中的系统偏差。通过这种方式,模型能够在预测过程中减少偏差,从而提供更接近实验值的结果。研究发现,GCGP方法在五种性质中达到了0.85以上的R2值,在四种性质中甚至达到了0.90以上的R2值,这一结果优于许多现有的机器学习(Machine Learning, ML)方法。此外,该方法还被证明具有良好的鲁棒性,即对GP模型结构和核函数选择的变动不敏感。

在模型构建过程中,研究采用了分层抽样(stratified sampling)方法,以确保训练集和测试集之间的数据分布均衡。通过这种方式,GCGP方法能够在不同数据集之间保持一致的预测性能。同时,研究还探讨了如何通过引入其他物理信息驱动的描述符(如ΔHfus)来进一步优化模型的预测能力。例如,在Tm的预测中,使用ΔHfus与分子量的比值作为输入特征,显著提高了模型的R2值和MAPE值,表明GCGP方法在适当调整输入特征时可以进一步提升预测精度。

在计算性能方面,GCGP方法展现了良好的效率。模型训练和预测的时间主要取决于训练集的大小,但即使是对于包含数千个数据点的训练集,GCGP方法在预测新分子时仍然能够保持较快的响应速度。研究中还提到,使用专门的软件工具来生成GC输入可能会增加计算时间,因此开发适用于GCGP方法的定制化软件可以进一步提升其效率。

此外,研究还分析了GCGP方法在不同性质中的表现。例如,对于Tm,虽然GC方法存在较大的系统偏差,但GCGP方法能够显著改善预测精度。而对于其他性质如Vc和Tc,GC方法的预测结果较为准确,GCGP方法在此基础上提供微小的优化。这一结果表明,GCGP方法在不同性质中的适用性不同,但在整体上提供了比传统GC方法更高的准确性和更可靠的不确定性估计。

研究还指出,GCGP方法的鲁棒性在于其对不同模型结构和核函数选择的适应能力。通过调整输入特征和模型结构,可以进一步提升预测性能。例如,使用更复杂的核函数如理性二次(Rational Quadratic, RQ)或Matérn核,可以在不同性质中实现更灵活的预测。然而,研究也强调,即使在使用更简单的核函数如等方差核(Squared Exponential, SE)的情况下,GCGP方法依然能够提供可靠的预测结果。

综上所述,GCGP方法在材料发现和设计中具有重要的应用潜力。它结合了GC模型的简洁性和GP模型的不确定性估计能力,为高通量筛选和优化提供了高效且可靠的解决方案。此外,该方法的灵活性使其能够扩展到其他性质、GC模型和分子类型,为未来的材料发现任务提供了强有力的支持。研究还指出,进一步的优化方向包括改进GC模型的参数化方法、引入更多的物理信息驱动的描述符以及探索在不同温度和压力条件下预测性质的可能性。这些改进将有助于提升GCGP方法的适用性和预测性能,使其在材料发现领域发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号