《Journal of Polymer Science》:Similarity-Driven Framework for Efficient Polymer Property Prediction Under Data Scarcity Scenarios
编辑推荐:
由化学结构直接预测聚合物性质是实现先进材料理性设计的关键环节。尽管人工神经网络(ANNs)已成为定量结构–性质关系(QSPR)研究中的有力工具,并在大规模数据集上可达到较高预测精度,但其应用常受数据稀缺限制。在此背景下,研究人员提出了一种相似性驱动方法,以应对
由化学结构直接预测聚合物性质是实现先进材料理性设计的关键环节。尽管人工神经网络(ANNs)已成为定量结构–性质关系(QSPR)研究中的有力工具,并在大规模数据集上可达到较高预测精度,但其应用常受数据稀缺限制。在此背景下,研究人员提出了一种相似性驱动方法,以应对数据不足问题并提升ANN对无规聚丙烯酸酯玻璃化转变温度(Tg)的预测能力。基于“结构相似的分子具有相似性质”的相似性原理,研究人员构建了两类数据高效框架。其一为结构相似性方法,包括基于嵌入的方法和编辑距离方法,这些方法仅依赖SMILES编码的聚合物结构信息、无需任何性质数据,其中编辑距离方法在使用仅五个含性质信息的样本时,平均绝对百分比误差(MAPE)可达5.9%(平均绝对误差MAE约18 K)。其二为化学相似性方法,利用SMILES表示和Tg值构建相似性空间,并通过五个最近邻的Tg值进行预测,平均MAPE为4.6%(约13 K)。上述结果表明,就所研究的数据集而言,该数据稀缺处理策略能够获得比传统ANN方法(MAPE为8.7%,约24 K)更准确的Tg预测结果。
聚合物材料的高性能化在很大程度上依赖于对其玻璃化转变温度(T
g)等关键热力学性质的精准预测。近年来,人工神经网络(ANNs)在定量结构–性质关系(QSPR)研究中迅速发展,并已能通过学习单体结构与宏观性质之间的映射关系来预测聚合物的玻璃化转变温度、介电性质和电子亲和力等。在这些研究中,简化分子线性输入系统(SMILES)因其能够用字符串形式简洁表示化学结构,常被用作模型输入;而善于处理序列信息的长短期记忆网络(LSTM)等循环神经网络(RNN)架构则被广泛应用于基于SMILES的建模。然而,数据稀缺始终是制约ANN在聚合物性质预测中发挥作用的重要瓶颈:某些实验数据本身难以获得,而聚合物化学空间几乎无限、实验合成与表征又往往成本高昂、周期漫长,进一步限制了可获取样本的规模。为缓解数据稀缺问题,研究者已尝试数据增强、迁移学习和物理信息神经网络(PINNs)等策略,但“拥有更多数据”并非总是最优方案,尤其当新增样本与目标分子结构差异较大时,反而可能降低预测精度。因此,如何充分利用分子相似性以在小样本条件下实现高精度预测,成为聚合物信息学亟待解决的关键问题。
针对上述问题,研究人员在《Journal of Polymer Science》发表了面向数据稀缺场景的相似性驱动预测框架研究。该研究以“结构相似的分子具有相似性质”为核心假设,将分子相似性原理推广应用于无规聚丙烯酸酯T
g的数据高效预测。研究人员分别构建了基于SMILES的结构相似性方法和基于SMILES?T
g联合信息的化学相似性方法,并通过局部均值估计完成目标聚合物的T
g预测。结构相似性无需借助监督训练获得的性质信息,而化学相似性则需要在整个数据库上利用实验T
g训练模型;两类方法在预测精度与数据需求之间形成互补。研究结果表明,相较于传统ANN基线(MAPE约8.7%,约24 K),合理利用结构或化学相似性均可显著提升小样本条件下的预测性能,为聚合物机器学习提供了一种新的数据高效范式。
研究人员开展本研究所采用的关键技术方法可概括为:以189种无规聚丙烯酸酯为对象,按SMILES长度和Tg分布保留20个代表性测试集;采用LSTM嵌入—LSTM层—层归一化—全连接的序列回归网络作为基线;并以自编码器潜在空间余弦相似度、SMILES编辑距离和监督LSTM提取的增强特征向量(EFVs)余弦相似度分别构建结构/化学相似性数据集,最终用目标聚合物最近邻的Tg局部均值进行预测。
研究结果部分围绕三种相似性策略展开。
在“结构相似性结果”中,研究人员首先基于自编码器潜在空间的嵌入余弦相似度构建数据集。结果显示,该方法的平均绝对百分比误差(MAPE)几乎不随最近邻数量(N=5~100)变化,稳定在约15.5%(约46.5 K),与随机选择样本的策略相比优势很小。这说明仅通过无监督自编码器潜在空间捕捉SMILES结构相似性,难以在小样本条件下获得高预测精度。相比之下,基于SMILES编辑距离的结构相似性方法在N较小时表现突出:当仅使用5个最近邻的T
g值进行预测时,平均MAPE约为5.9%(约18 K),低于基线ANN;随着N增大,误差逐渐上升并渐近于约15%,即趋于随机选择水平。编辑距离方法无需训练任何神经网络,计算耗时不足2秒,显著低于嵌入法的约26分钟,因而在仅有单体SMILES、缺乏大量性质数据时具有突出的实用价值。
在“化学相似性结果”中,研究人员利用在SMILES和T
g上监督训练的LSTM提取增强特征向量(EFVs),并通过余弦相似度构建化学相似性数据集。实验发现,预测误差随最近邻数量增加而上升,N=5时达到最优,平均MAPE为4.6%(约13 K),显著优于基线ANN(8.7%)。即使在较大N下,化学相似性方法的误差也未达到随机选择的约15%水平,表明化学相似性数据集包含更丰富的结构与性质联合信息。对基线模型预测效果最差四个样本(聚合物9、10、11和14)的分析进一步证实,基于化学相似性的五个最近邻局部均值预测能够明显优于传统ANN预测。研究人员还在补充材料中通过随机数据划分验证了该结论的稳健性。
在“各目标方法分析”中,研究人员对测试集中20个目标聚合物分别使用N=5的最近邻局部均值进行预测,并比较了基线、随机选择、嵌入结构相似性、编辑距离结构相似性和化学相似性五种策略。单目标分析进一步确认:化学相似性方法最接近实验T
g,编辑距离次之,而嵌入结构相似性与随机选择表现相当。该结果支持将研究框架理解为在围绕每个目标聚合物的局部化学空间内进行“局部回归”。
在讨论部分,研究人员指出编辑距离结构相似性是一种无需性质信息的邻域选择策略,仅需少量已测T
g样本即可实现优于传统ANN的预测,特别适用于实验数据昂贵或难以获取的场景;其代价是泛化能力可能受限。基于嵌入的结构相似性目前性能有限,未来可通过数据增强、构建更连续的潜在空间或引入预训练Transformer模型加以改进。化学相似性虽需依赖全库的T
g数据进行监督训练、计算成本更高,但其以牺牲泛化换取更高精度的策略在数据受限环境中具有明显优势。总体而言,相似性计算与局部预测的计算开销在研究时间尺度内可接受。
研究结论可翻译如下:本研究提出了一种基于结构与化学相似性的数据高效方法,用于在数据稀缺场景下预测聚合物性质。研究表明,充分利用分子相似性能够显著提升LSTM模型对无规聚丙烯酸酯T
g的预测性能。该方法通过挖掘数据库内分子的内在相似性,围绕每个目标聚合物在局部化学空间内进行局部回归。其核心启示在于,通过合理组织现有信息,即使数据有限也能实现较高的预测精度。鉴于其数据高效的设计,本方法未来有望推广至其他聚合物数据集和T
g以外的目标性质。通过策略性地利用结构或化学相似性,该框架为聚合物信息学和材料发现中的机器学习更广泛、更高效的应用开辟了道路。