基于可解释机器学习的多功能聚酰亚胺性能预测

《Smart Molecules》:Multifunctional polyimide performance prediction based on explainable machine learning

【字体: 时间:2025年11月01日 来源:Smart Molecules

编辑推荐:

  聚酰亚胺材料通过机器学习建立Tg、CW、CTE预测模型,利用SHAP分析优化结构设计,筛选出135种高性能PI无需实验验证。

  聚酰亚胺(PIs)因其优异的综合性能和结构多样性,在微电子领域得到了广泛应用。在柔性基板应用中,设计分子结构以平衡热力学和光学性能是PI设计过程中最关键的环节。为加快高性能PI的发现,研究人员采用多种机器学习算法,建立了预测玻璃化转变温度(Tg)、截止波长(CW)和热膨胀系数(CTE)的模型。这些模型在测试集预测和交叉验证结果中均表现出较高的准确性和稳定性。此外,还通过SHAP方法对这三个模型的可解释性进行了分析,并使用几种新型PI验证了模型的准确性和泛化能力。通过结合三个模型,对多个PI进行了预测,从而筛选并合成了具有出色综合性能的PI。研究设计了135种新型PI,并获得了其关键性能参数,而无需进行实验验证。本研究建立的预测模型能够帮助研究人员快速确定PI的Tg、CW和CTE,从而迅速识别具有发展潜力的候选材料。

随着柔性显示技术的快速发展,柔性基板材料的需求日益增加。作为柔性显示设备的核心材料,PI必须满足多种性能要求。例如,柔性显示基板需要高透光率(如在430纳米波长下透光率大于80%)和接近无色的特性,以符合OLED等显示技术的光学需求。同时,在柔性显示设备的制造过程中,涉及高温工艺(如薄膜晶体管沉积),因此PI基板的Tg必须超过300摄氏度。此外,PI的CTE应与金属电极匹配,以防止由于热应力引起的层间剥离或翘曲。因此,具有高透明度、高Tg和低CTE的PI被认为是柔性显示领域最有前景的透明基板材料之一。然而,PI分子链内部和之间的电荷转移相互作用可能导致其在可见光区域的透光性较差。为解决这一问题,可以在PI分子链中引入具有高电负性的取代基(如三氟甲基或磺酰基)或脂肪族单元(如环己基),以减少甚至消除电荷转移相互作用。但减少电荷转移相互作用可能会降低分子链的紧密性,从而影响PI的热稳定性或显著增加CTE。因此,设计具有平衡热力学和光学性能的分子结构是PI设计的关键所在。

传统的PI研究方法通常依赖于大量的实验探索和筛选可接受的结构,这一过程既耗时又成本高昂。近年来,随着机器学习(ML)技术的迅速发展,使用ML算法辅助材料的结构设计和筛选成为可能,从而加快新材料的开发进程。因此,研究人员尝试采用计算方法来有效预测新型PI的性能。通过数据驱动的方法,在实验室合成和测试之前,寻找具有优越综合性能的PI,可以缩短研发周期,将传统依赖试错的实验方式转变为理论指导的实验方式。目前,大多数研究集中在预测PI的Tg上,因为PI是其中一种最耐热的聚合物。例如,Liu等人收集了54种芳香杂环PI,开发了一个定量结构-性质关系(QSPR)模型,并使用人工神经网络的反向传播算法预测Tg,取得了18个样本测试集上的均方根误差(RMSE)为16.4°C,相关系数(R)为0.937。Wen等人则从文献中收集了225种PI,获取了它们的SMILES(简化分子输入线性输入系统)表示,并生成了1342种分子描述符作为ML模型的特征输入。他们的LASSO模型结合袋外方法,在Tg预测中的平均误差为18°C,表明ML模型具有良好的预测能力。然而,由于所用数据集较小,这些模型的泛化能力仍存在担忧,因此希望通过更大的数据集进一步提升模型的性能。

从上述研究可以看出,所有关于PI单个性能的预测工作都面临各种挑战。此外,很少有研究同时关注其他性能。Zhang等人使用了7种ML算法预测Tg和CW(分别为652个和201个数据点),其中最优模型的Tg预测误差为33.92°C,CW预测误差为17.18纳米。Tao等人则结合ML与分子动力学(MD)模拟,建立了多个ML模型,用于预测实验报告中的PI热力学和机械性能,包括Tg、杨氏模量和拉伸屈服强度。然而,关键性能如CW和CTE并未被纳入建模框架。值得注意的是,Tg预测的RMSE达到了35.2°C,表明模型在这一关键热性能上的预测精度仍有待提高。对于多性能预测,PI的评估变得更加复杂和耗时。

总体来看,PI性能的预测仍然面临数据集规模较小、预测精度和泛化能力不足,以及缺乏对关键性能如CTE的预测模型等挑战。因此,提出通过扩大数据集规模和采用多种ML方法来提高模型的准确性和泛化能力。此外,整合多个预测模型有助于筛选出具有卓越多功能性能的新PI。面对这些困难和挑战,我们认识到筛选出具有优异多功能性能的新PI需要通过整合多个预测模型进行分析。因此,本文收集了大量PI数据(超过1600条),并采用多种ML算法,包括集成学习和神经网络,分别构建了预测Tg、CW和CTE的模型。此外,借助SHAP(SHapley Additive exPlanations)方法,提取描述符的重要性以解释模型,并使用不在数据集中的PI进一步评估模型的准确性和实际应用价值。随后,我们通过整合这三个预测模型筛选PI,合成具有优异综合性能的PI,并通过实验测量其性能以验证ML模型的预测结果。最终,设计了135种新型PI,并获得了其关键性能参数,而无需进行实验验证。通过这一筛选过程,识别出具有优异综合性能和合成可行性的候选PI,以及具有单一高性能的PI。本工作预测了PI的多种关键性能,并展示了模型的高准确性和泛化能力,可用于发现具有理想性能的新PI材料。工作流程图如图1所示。

为了进一步研究PI分子微观结构与其各种性能之间的关系,我们使用SHAP方法对Tg、CW和CTE的最优模型进行了可解释性分析,获得了每个模型中描述符的重要性排序。这三个最优模型所使用的描述符详见支持信息S1中的表S5–S7。通过选择前15个最重要的描述符,并将每个特征的SHAP值的平均绝对值作为其重要性,结果如支持信息S1中的图S5–S7所示。然而,仅通过特征重要性无法确定描述符的具体数值对预测值的影响是正还是负。因此,我们创建了结合特征重要性和特征影响的Summary Plot,以更好地理解整体模式,并识别预测异常值。每个图展示了每个样本的描述符SHAP值,聚焦于前15个最重要的描述符,如图4a–c所示。这些图有助于更全面地理解模型的预测行为,并识别性能异常的PI。

为了验证模型的准确性和泛化能力,我们使用三个训练好的最优模型预测了新型PI结构的Tg、CW和CTE,每个性能至少有20个数据点。预测值与实验值的对比结果见支持信息S1中的图S8,详细的比较数据见支持信息S1中的表S8。所有三个模型的预测值都集中在虚线附近,表明预测值与实验值接近,模型具有良好的泛化能力。由于动态机械分析(DMA)测量的Tg值通常高于差示扫描量热法(DSC)测量的值,两者之间的差异可能从几度到几十度不等。因此,我们采用DSC测量的Tg值作为模型预测的基础。对于CW和CTE的预测,模型表现良好,预测误差在合理范围内。通过这一验证过程,我们确认了模型的预测能力,并进一步优化了筛选策略。

在筛选和合成PI候选材料的过程中,我们通过三个训练好的ML模型预测了1674种PI的Tg、CW和CTE值,从而识别出具有更好多功能性能的PI。由于需要同时满足三种性能,设计空间转变为了三维空间,如图5所示。在该数据集中,某些PI仅具有实验报告的Tg值,因此我们补充了CW和CTE的预测值。合成可行性评分(SAscore)是实际生产中的关键参数,SAscore低于6表示合成较为容易。如图6b–d所示,所有新型PI的SAscore值均低于7,其中只有6种超过6。这12种PI满足了三种性能的平衡要求,同时保持了良好的合成可行性。预测的三种性能值和SAscore值见支持信息S1中的表S9。值得注意的是,某些具有单一高性能的PI可能在特定领域具有应用价值。这些PI的结构细节、预测性能和SAscore值见支持信息S1中的表S10。通过结合模型预测和SAscore,这种方法可以在满足所需PI性能的同时,量化合成难度,从而显著降低实验成本,缩短研发周期,提高新材料研究的效率。

通过这一研究,我们发现预测PI的多种性能并筛选出具有优异综合性能的材料是可行的。采用机器学习方法,不仅提高了预测的准确性,还使研究过程更加高效。未来的研究可以进一步将分子量数据或合成过程纳入ML模型中,同时利用ML预测PI材料的介电和机械性能,从而进一步缩短研发周期,降低实验成本,并提升新材料研究的效率。本研究推动了数据驱动的材料开发,为未来高性能聚合物的发现提供了新的思路和方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号