
-
生物通官微
陪你抓住生命科技
跳动的脉搏
双重嵌入:一种微调语言模型方法,用于准确预测聚合物的玻璃化转变温度
《Journal of Chemical Information and Modeling》:Dual Embedding: A Fine-Tuned Language Model Approach for Accurate Polymer Glass Transition Temperature Prediction
【字体: 大 中 小 】 时间:2025年11月05日 来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
本文提出一种双嵌入框架用于提升聚合物玻璃化转变温度(Tg)的预测精度,通过结合常规BERT嵌入和专门微调的嵌入模型,使向量相似性更贴合Tg数值差异。实验在四个基准数据集上验证,该框架相比基线模型降低最多20%的RMSE,并优于图基线和描述子基方法,证明直接嵌入物性信息可突破结构-centric范式。

近年来,聚合物信息学领域取得了重大进展,但准确预测聚合物的性质(如玻璃化转变温度 Tg)仍然是一个挑战。像 BERT 这样的语言模型已被用来从聚合物表示(例如 SMILES)中提取嵌入向量。然而,这些潜在空间中的嵌入向量之间的相似性主要反映了化学结构的相似性,与物理化学性质的关联有限。在这里,我们提出了一种双重嵌入框架,通过结合传统的基于 BERT 的嵌入和一个经过微调的嵌入来增强 Tg 的预测能力,使得向量相似性能够反映 Tg 值的接近程度。我们在四个基准测试中评估了我们的方法:一个异构数据集与 25 个机器学习基线进行了比较,另外还有三个专注于均聚物和聚酰亚胺的数据集。双重嵌入模型的表现优于标准的基于 BERT 的嵌入模型,RMSE 最大降低了 20%,并且超过了基于图和描述符的其他模型。这些结果表明,将分子性质直接嵌入到表示中可以推动聚合物信息学超越以结构为中心的范式。
生物通微信公众号
知名企业招聘