化学语言模型稳健性评估新框架:基于SMILES变异的AMORE方法及其在药物发现中的意义

《Journal of Cheminformatics》:Measuring Chemical LLM robustness to molecular representations: a SMILES variation-based framework

【字体: 时间:2025年10月31日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对化学语言模型(ChemLMs)难以识别同一分子不同SMILES表示的问题,提出了AMORE评估框架。通过五种SMILES增强技术(规范化、显氢、凯库勒式、环重编号和随机化),研究人员发现现有ChemLMs对分子表示的稳健性普遍不足。该框架为无监督评估模型化学理解能力提供了新范式,对提升药物发现可靠性具有重要意义。

  
在人工智能与化学交叉研究蓬勃发展的今天,化学语言模型(ChemLMs)已成为药物发现领域的重要工具。这些模型通过处理Simplified Molecular Input Line Entry System(SMILES)等分子表示格式,在分子性质预测、反应建模和分子描述生成等任务中展现出强大潜力。然而,一个关键问题逐渐浮出水面:这些模型是真正理解了化学原理,还是仅仅学会了文本模式的表面特征?
问题的核心在于SMILES表示的内在特性。同一分子可以存在多种有效的SMILES表示,这类似于自然语言中的同义词现象。例如,甲烷分子既可以表示为"C",也可以表示为显式的"[CH4]"。理想的化学语言模型应当能够识别这些不同表示对应的是同一化学实体。然而,现有的评估方法主要依赖自然语言处理(NLP)领域的指标,如BLEU、ROUGE和METEOR,这些指标侧重于文本表面特征而非化学语义的等价性。
更令人担忧的是,在药物发现和医疗健康等高风险领域,模型对分子表示的误解可能导致严重后果。如果模型无法识别不同SMILES变体对应的同一分子,其在真实场景中的可靠性将大打折扣。这就迫切需要一种能够评估模型化学理解能力的新方法,而不仅仅是衡量其文本生成质量。
为了解决这一挑战,Ganeeva等研究人员在《Journal of Cheminformatics》上发表了创新性研究,提出了名为AMORE(Augmented Molecular Retrieval)的评估框架。该框架的核心思想是:如果模型真正理解了化学知识,那么对同一分子的不同SMILES表示应该在模型的嵌入空间中位置相近。
研究人员采用五种化学等价变换的SMILES增强方法:RDKit规范化、显式氢添加、凯库勒化、环重编号和随机原子顺序重排。这些变换都能保持底层分子结构不变,相当于创造了分子的"同义词"。通过计算原始分子与增强表示在嵌入空间中的距离,并采用top-k准确率和平均倒数排名(MRR)作为评估指标,AMORE框架能够量化模型识别分子等价表示的能力。
研究团队在ChEBI-20和QM9异构体两个数据集上对多种主流化学语言模型进行了全面评估,包括Text+Chem T5、MolT5、PubChemDeBERTa、ChemBERTa等不同架构的模型。这些模型涵盖了编码器-解码器、仅编码器和仅解码器三种主要类型,确保了评估的全面性。
关键技术方法包括:基于五种SMILES增强技术生成分子等价表示;利用FAISS库进行大规模最近邻搜索;采用top-1/top-5准确率和MRR作为评估指标;在ChEBI-20(约3300个分子)和QM9异构体(918个分子)数据集上进行测试;对比分析不同模型架构在分子检索任务中的表现。
分子-增强检索结果
研究表明,现有化学语言模型在识别SMILES增强变体方面普遍表现不佳。在所有测试的模型中,没有哪个模型能在所有增强类型和数据集上表现最优。特别值得注意的是,显式氢添加增强对所有模型都构成了最大挑战,在异构体数据集上的top-1准确率甚至低于1%。这种性能差异表明,模型在预训练过程中可能过度拟合了特定的SMILES文本模式,而非真正学习化学结构知识。
不同增强类型的稳健性差异
研究发现了明显的增强类型依赖性。性能下降程度从大到小依次为:显式氢添加 > RDKit规范化 > 凯库勒化 > 环重编号。编码器-仅编码器模型(如PubChemDeBERTa、ChemBERTa)在环重编号增强任务中与T5模型表现相当,这表明不同模型架构对不同类型增强的敏感度存在差异。
跨模态化学语言模型的优势
一个重要发现是,在除环重编号外的所有增强类型中,经过文本和化学任务联合预训练的跨模态模型(如MolT5和Text+Chem T5变体) consistently表现出更高的检索准确率。Text+Chem T5标准版和Text+Chem T5增强版在大多数情况下得分高于其他模型,凸显了跨模态学习在提升模型化学理解能力方面的价值。
AMORE与描述质量的关系
研究发现,描述质量指标(如ROUGE和METEOR)的下降模式与AMORE评估结果具有一致性。显式氢添加增强导致描述质量指标下降最为显著,这与AMORE评估中该增强类型表现最差的结果相吻合。更重要的是,Acc@1与ROUGE/METEOR之间的Spearman相关系数大于0.7(p值=0.003),表明即使在缺乏标注数据集的情况下,AMORE框架也能预测增强对描述质量指标的影响。
度量选择对AMORE的影响
研究人员比较了四种距离计算方法:L2距离、余弦距离、内积距离和HNSW(Hierarchical Navigable Small World)。对于除显式氢添加外的所有增强类型,标准L2距离方法效果最佳。而对于显式氢添加,余弦距离和HNSW能够比L2距离更好地排列嵌入向量。
显式氢增强的深入分析
所有模型在显式氢添加增强上都表现出显著的质量下降。研究人员推测这种行为部分归因于标记分布偏移:原始ChEBI-20 SMILES字符串中"CH"、"CO"、"NH"等标记较为罕见,而在增强后变得频繁。通过绘制Recall@K曲线,研究发现其行为与Acc@(1,5)相似,进一步证实了模型在该增强类型上的困难。
AMORE与下游任务
研究还评估了增强SMILES对MoleculeNet基准测试中九个下游任务的影响,包括三个回归任务(Lipophilicity、ESOL、FreeSolv)、三个二元分类任务(HIV、BBBP、BACE)和三个多标签分类任务(Tox21、ToxCast、SIDER)。结果显示,增强SMILES通常导致性能下降,其中显式氢添加增强的影响最为显著。例如,ESOL回归任务的RMSE从0.87增加到7.93。
化学语言模型排名
通过Vote'n'Rank框架的Copeland规则对模型进行排名发现,除显式氢添加外的所有增强类型都不会显著改变原始排名。ZINC-RoBERTa和PubChemDeBERTa在五个测试集中的四个上分别排名第一和第二。编码器-解码器架构在下游任务中对显式氢添加增强的稳健性优于仅编码器架构,前五名中有四个位置由MolT5-large、MolT5-base、Text+Chem T5-augm和SciFive占据。
研究表明,现有化学语言模型的嵌入空间即使对已知的分子恒等变换也缺乏稳健性。虽然不同模型层对SMILES增强的稳健性存在差异,但没有哪个中间层能够完全稳定地处理SMILES增强。当输入分布外(OOD)样本时,化学语言模型在下游任务(如分子描述生成)中的性能会受到显著限制。
AMORE框架的提出为化学领域现代语言模型的知识意识分析提供了通用框架。尽管研究在所有实验中依赖L2距离作为相似性度量,但可以采用任意的嵌入相似性度量。同样,可能的增强类型也不限于研究中考虑的类型,可以进一步扩展。这种灵活性可能为化学领域语言模型的解释和分析开辟新途径。
该研究的实际意义在于强调化学模型必须准确地将增强SMILES转换为分子结构。如果没有完全理解SMILES的语法并区分相同结构的SMILES,化学语言模型在真实数据扰动面前仍然脆弱。这一分析旨在为从自然语言处理中学习化学表示的既定流程提供修订依据。
AMORE框架可作为增强新模型稳健性的正则化工具。例如,可以采用度量学习技术来鼓励训练模型将给定SMILES的变体嵌入到彼此接近的位置。未来研究方向包括理解分子SMILES表示在语言模型中的功能、解决化学任务中的弱点以及提高效率等方面。
这项研究通过引入基于嵌入距离和SMILES增强的创新方法,为探索和评估模型对化学物质的表示及其识别SMILES字符串表示中分子结构的能力提供了新工具。该框架首次应用嵌入间距离计算来基准测试化学大语言模型,极大地扩展了评估和比较领域特定多样化架构模型的范围,包括仅编码器与生成模型,以及单模态语言模型(仅包含分子原子标记)与跨模态模型(原子+自然语言处理标记)。与典型自然语言处理任务相比,该方法的增强创造了分子的完全同义词,这在自然语言的通用词汇中是不存在的,凸显了该框架在化学领域的独特价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号