
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在分子化学中利用自然语言处理和生成模型:性质预测与新型化合物的生成
《ACS Sustainable Chemistry & Engineering》:Leveraging Natural Language Processing and Generative Models in Molecular Chemistry: Property Prediction and Novel Compound Generation
【字体: 大 中 小 】 时间:2025年11月25日 来源:ACS Sustainable Chemistry & Engineering 7.3
编辑推荐:
预测有机化合物性质的NLP方法研究,通过5695个粘度、25870个logP和2296个蒸发热数据验证,发现Mol2vec嵌入结合GCNN和ChemBERTa微调模型显著优于传统分子指纹和量子化学特征,对粘度预测R2达0.945,RMSE仅0.106 mPa s,并成功与LM-GAN结合生成低毒溶剂分子。

准确预测分子性质对于绿色化学和可持续材料研究的合理设计及进展至关重要。然而,由于计算限制,传统计算化学方法的预测能力存在局限。在这里,我们探讨了一种替代方法,即基于自然语言处理(NLP)的分子嵌入技术,用于准确预测有机化合物的性质。我们选取了粘度、分配系数(log P)和蒸发热作为测试属性,通过分析包含5695个粘度数据点、25,870个log P数据点和2296个蒸发热数据点的综合数据集来进行研究。这些性质对于设计更环保、更安全、更可持续的化学过程具有重要意义。我们使用Mol2vec等NLP方法对模型进行了训练,并对训练后的模型进行了fine-tuning,使用了ChemBERTa。将训练结果与传统的特征提取技术(如Morgan指纹、量子化学衍生的sigma剖面和DFT特征)进行了比较。在各种机器学习模型中,Mol2vec表现出卓越的预测能力,其粘度预测的相关系数(R2 = 0.945)最高,均方根误差(RMSE)最低(0.106 mPa s),同时log P和蒸发热的预测精度也非常高。这些发现表明,Mol2vec特征提取技术、图卷积神经网络(GCNN)以及fine-tuned ChemBERTa模型是预测有机化合物性质的强大工具,相较于以往使用的特征提取方法有显著改进,并为高通量计算筛选提供了新策略。最后,我们将机器学习模型与基于混合语言模型的生成对抗网络(LM-GAN)相结合,生成具有理想性质的新分子序列,以应用于不同的研究领域。通过计算设计出粘度更低、log P更低、蒸发热更低的溶剂,为加速发现传统有毒溶剂的可持续替代品提供了数据驱动的方法。
生物通微信公众号
知名企业招聘