PolyMetriX:构建数字聚合物化学的开源生态系统,推动AI驱动的高分子材料发现

《npj Computational Materials》:PolyMetriX: an ecosystem for digital polymer chemistry

【字体: 时间:2025年10月22日 来源:npj Computational Materials 11.9

编辑推荐:

  本刊推荐:针对聚合物信息学领域缺乏标准化框架、数据可比性差及模型泛化能力不足的问题,研究人员开展了名为"PolyMetriX"的开源Python库开发工作。该研究提供了包含7367个数据点的玻璃化转变温度(Tg)标准化数据集,创新性地提出了全聚合物、主链和侧链层次的特征提取方法,并设计了LOCOCV(留一簇交叉验证)和Tg外推等数据拆分策略。结果表明,PolyMetriX在多种拆分策略下均优于传统的Morgan指纹和PolyBERT指纹方法,显著提升了模型预测性能与可重现性,为聚合物信息学建立了标准化工作流程。

  
在当今材料科学领域,聚合物作为基础性材料,从航空航天领域的轻质复合材料到生物医学领域的药物递送系统,无处不在。随着对定制化高分子材料需求的日益增长,传统的实验设计方法因其耗时费力而逐渐被机器学习(ML)技术所补充。然而,聚合物信息学的发展却面临着严峻挑战:数据稀缺且噪声多、工具碎片化、工作流程不一致,以及缺乏标准化的聚合物表示方法。这些问题导致机器学习模型的可重现性差,不同研究之间的结果难以比较,严重阻碍了该领域的进一步发展。
针对这些瓶颈,发表在《npj Computational Materials》上的研究提出了PolyMetriX——一个专为聚合物信息学设计的开源Python生态系统。该研究旨在通过提供统一框架来简化聚合物信息学工作流程,涵盖从数据准备到建模的整个机器学习流程。
研究团队首先致力于解决数据集标准化问题。他们发现,现有文献中用于训练和测试机器学习模型的数据集存在严重的不兼容性。通过交叉测试实验,使用梯度提升回归(GBR)模型在不同数据集间进行训练和测试,结果显示平均绝对误差范围达13.79-214.75K,凸显了当前聚合物化学中机器学习模型使用的数据集缺乏可比性,严重阻碍了先前工作的重用。
为此,研究人员从九个不同来源收集了8992个数据点,经过严格的清洗和整理流程,最终得到了包含7367个独特PSMILES-Tg对的标准数据集。为了提高数据可靠性,他们创新性地引入了可靠性分类系统:黑标(不确定可靠性,7088个数据点)、红标(不可靠数据,Z分数>2,4个数据点)、黄标(中等可靠性,Z分数≤2,132个数据点)和金标(高可靠性,Z分数≤2,143个数据点)。
研究采用了几项关键技术方法:一是数据获取与清洗,从多个来源收集Tg数据并应用标准化预处理;二是主链和侧链分类算法,基于图论分析聚合物结构;三是层次特征提取,开发了25种化学特征器和7种拓扑特征器;四是先进的数据拆分策略,包括随机拆分、LOCOCV和基于属性的拆分。
PolyMetriX包的核心创新在于其层次特征提取方法。与传统的Morgan指纹(仅编码子结构存在与否)不同,PolyMetriX提供了标准化的应用程序编程接口(API),用于使用、组合和创建特征器,重点关注聚合物的不同结构层次。特征器主要分为化学特征器和拓扑特征器两类:化学特征器描述聚合物的组成,捕捉环数量、可旋转键、杂原子和杂化状态等属性;拓扑特征器关注连接性,描述结构和空间排列,如侧链数量、主链原子数、不同侧链数和侧链长度等关键参数。
数据集筛选和变异性影响分析表明,聚合物样品即使具有相同的重复单元,也可能表现出不同的Tg值。这种变异性是可以预期的,因为聚合物样品的Tg会随链长、分散度和实验方法的不同而波动。图2清晰地展示了相同聚合物结构在不同来源中Tg值的显著变异性,强调了数据筛选对于最小噪声和提高机器学习模型可靠性的必要性。
PolyMetriX特征提取与性能评估显示,PolyMetriX特征器在泛化能力方面表现优异。通过分析测试误差随训练集相似度的变化关系,研究发现Morgan指纹在Tanimoto相似度增加时平均绝对误差(MAE)降低,表明在独立同分布(IID)设置下性能强劲,但对结构不同化合物的外推能力有限。而PolyMetriX特征在不同相似度水平下保持了相对一致的性能,且维度更低(28和72维,而PolyBERT指纹为600维)。
高级特征提取和聚合物系统部分详细介绍了PolyMetriX的模块化设计。虽然PSMILES表示法没有明确表示端基,但PolyMetriX的模块化设计允许将端基(如羟基、羧基、胺基和甲基)纳入主链或侧链中,这使得主链级和侧链级特征器能够量化它们的化学贡献。此外,PolyMetriX主要通过专用分子类支持聚合物-有机混合物和多组分系统的计算分析,通过统一的特征提取协议保持聚合物和小分子组分的一致性。
数据拆分和模型评估是研究的另一个重点。在材料发现中,目标是在训练数据之外识别具有所需特性的新材料。PolyMetriX提供了结构化的数据拆分策略,如LOCOCV和基于Tg的外推拆分器,确保模型在反映真实世界材料发现挑战的条件下进行测试。
图6结果显示,PolyMetriX特征器在所有拆分策略中一致地优于Morgan和PolyBERT指纹。正如预期的那样,基于属性和LOCOCV拆分方法的误差和方差比随机拆分更高。这种趋势突出了这些拆分策略难度的增加,这对模型提出了更高的泛化要求。值得注意的是,在多个层次水平(全聚合物、侧链和主链)上组合PolyMetriX特征器产生了优异的预测性能,使它们在插值和外推设置中都非常有效。
研究方法部分详细介绍了数据获取和清洗过程。Tg数据集从多个来源编制,初始数据集包含8992个数据点。来源分为三个不同的组别:B类(可追溯到Bicerano手册)、P类(可追溯到PolyInfo数据库)和其他类别(C、D和E)。通过一系列预处理步骤,包括PSMILES的规范化、基于相同PSMILES和Tg值的去重、处理缺失值以及对相同PSMILES但不同Tg值的条目进行聚合,最终得到7874个数据点,占原始数据集的87.5%。
主链和侧链分类是PolyMetriX包的关键技术。聚合物类通过利用图论和NetworkX库分析聚合物的结构来实现这种分类。将聚合物表示为图,其中节点对应原子,边代表化学键。 backbone的识别基于关键图属性,包括连接点之间的最短路径、环检测和节点度分析。不属于主链的原子被归类为侧链。
研究结论表明,PolyMetriX通过整合跨越全聚合物结构、主链和侧链的层次特征表示,超越了传统的基于指纹的方法(如Morgan指纹),实现了更准确的结构-性能预测。精心筛选的Tg数据集(包含7367个聚合物条目)为未来的聚合物机器学习研究提供了标准化基准测试资源。此外,PolyMetriX提供的结构化数据拆分策略确保模型在反映真实世界材料发现挑战的条件下进行测试。
该研究的重大意义在于为聚合物信息学建立了标准化的工作流程和评估框架,解决了该领域长期存在的可重现性问题。通过开源发布PolyMetriX,研究团队旨在促进聚合物信息学领域的合作,加速数据驱动的聚合物研究。未来工作将扩展特征提取框架并增加精心筛选的数据集数量,使PolyMetriX成为下一代AI驱动聚合物发现的社区驱动基石。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号