化学语言模型设计选择如何超越性能表现塑造化学可解释性
《Journal of Cheminformatics》:Beyond performance: how design choices shape chemical language models
【字体:
大
中
小
】
时间:2025年11月19日
来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对化学语言模型(CLM)中分子表示格式(SMILES/SELFIES)、分词策略(原子级/SentencePiece)和模型架构(RoBERTa/BART)等设计选择对性能与化学可解释性的影响机制展开系统评估。通过下游任务微调和潜在空间探针分析,发现不同配置虽在预测性能上相近,但在内部表示的化学结构可解释性方面存在显著差异,其中基于SMILES的原子级分词RoBERTa模型为标准预测任务提供了最可靠的基准方案。
在药物设计和材料发现领域,分子性质预测始终是计算化学的核心挑战。传统实验方法耗时昂贵,而基于深度学习的化学语言模型(Chemical Language Models, CLM)通过将分子表示为SMILES(Simplified Molecular Input Line Entry System)或SELFIES(Self-Referencing Embedded Strings)等序列格式,在性质预测和分子生成任务中展现出强大潜力。然而,模型设计选择(如分子表示格式、分词策略和模型架构)如何影响其内部化学知识的编码方式,仍是一个未被系统揭示的黑箱问题。
当前研究多聚焦于模型预测性能的优化,却忽视了不同设计组合对模型可解释性的深层影响。例如,SMILES与SELFIES在语法稳健性上各有优劣,原子级分词与SentencePiece分词对化学语义的捕捉粒度存在差异,而RoBERTa与BART等Transformer架构在编码模式上亦有所不同。这些因素共同决定了模型是否真正"理解"化学规律,而非仅进行表面的模式匹配。
为解开这一谜题,Inken Fender等人在《Journal of Cheminformatics》发表的研究中,开展了一项系统性的对照实验。研究人员构建了16种不同配置的CLM模型,通过控制变量法探究分子表示(SMILES/SELFIES)、分词策略(原子级/SentencePiece)、模型架构(RoBERTa/BART)和手性表示(隐式/显式)四类关键设计选择的影响。研究不仅评估模型在MoleculeNet基准数据集上的下游任务性能,更创新性地采用潜在空间探针、向量运算和降维可视化等技术,深入解析模型内部表示的化学合理性。
主要技术方法包括:使用PubChem-10M数据集进行预训练;基于MoleculeNet的5个分类任务(BACE、BBBP、ClinTox、HIV、Tox21)和4个回归任务(BACE、Clearance、Delaney、Lipo)进行模型微调;采用k近邻(KNN)、支持向量机(SVM)等探针预测器分析潜在空间结构;通过主成分分析(PCA)和UMAP进行降维可视化;开展分子嵌入的余弦相似性分析和向量运算实验;利用GAFF2原子类型标注和DASH量子化学数据集进行原子级嵌入评估。
通过层次聚类分析发现,不同模型配置在性能表现上呈现显著的任务依赖性。原子级分词策略在多数任务中优于SentencePiece分词,而显式手性表示在BACE、HIV等任务中表现出优势。值得注意的是,虽然不同配置间的绝对性能差异不大,但其潜在空间结构却存在本质区别。SMILES表示在BBBP和HIV任务上表现更佳,而SELFIES在ClinTox任务上有优势;BART架构在BACE、HIV和Tox21任务上领先,而RoBERTa在ClinTox和BBBP任务上更优。
对分子描述符预测任务的分析显示,不同模型架构捕获的化学信息存在互补性。BART在全局分子特征(如杂环识别、MolLogP预测)上表现更佳,而RoBERTa在局部拓扑描述符(Kappa1、Chi0v等)预测上更具优势。径向基函数支持向量机(RBF SVM)在所有任务中均表现最佳,表明潜在空间中存在丰富的非线性化学关系。
PCA降维可视化显示,基于SMILES的嵌入呈现更清晰的化学家族聚类结构,特别是RoBERTa模型对类固醇、β-内酰胺等四类药理学相关分子表现出最佳分离效果。相比之下,SELFIES嵌入的聚类程度较弱,而未训练模型的嵌入仅能基于分子长度等表面特征进行粗略区分。
余弦相似性分析表明,BART嵌入具有更宽的相似性范围,能更好区分不同官能团类别。向量运算实验验证了嵌入空间可捕获化学转化关系,如将丁醛转化为丁酸的操作中,BART模型能准确预测目标分子,而RoBERTa模型虽方向正确但具体分子选择存在偏差。
原子级嵌入分析揭示了不同模型对化学环境的编码能力差异。RoBERTa结合SMILES表示能有效区分芳香碳(sp2)、脂肪族碳(sp3)等GAFF2原子类型,而SELFIES表示的原子类型分离度较低。值得注意的是,SMILES表示中固有的大小写区分(如芳香碳为小写)即使在未训练模型中也能产生基础原子类型聚类。
在原子级任务中,SMILES嵌入在GAFF2原子类型分类和Mulliken电荷等量子化学性质预测上显著优于SELFIES,KNN预测器的优异表现表明嵌入空间成功捕获了原子局部环境信息。这证实了SMILES表示通过大小写、键序符号等语法元素,为模型提供了更丰富的化学语义线索。
研究结论表明,化学语言模型的设计选择显著影响其内部表示的化学合理性,尽管这种影响在下游预测性能上可能不明显。原子级分词和SMILES表示的组合倾向于产生更具化学意义的嵌入结构,而模型架构(BART与RoBERTa)则决定了全局与局部化学特征的捕获偏好。这些发现为开发更具可解释性的化学基础模型提供了重要指导:在追求预测性能的同时,应更加重视设计选择对模型化学理解能力的影响。
该研究的创新性在于将评估重点从传统性能指标转向潜在空间的可解释性分析,揭示了"性能相当"的模型可能在化学知识编码方式上存在本质差异。这一发现对药物设计和材料发现领域具有深远意义,因为真正理解化学规律的模型更有可能在创新分子设计中提供可靠指导。未来研究可探索更多分子表示格式(如t-SMILES、DeepSMILES)与图神经网络的融合,进一步推动化学人工智能的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号