SPECTRE:一种用于小分子结构解析与注释的多模态光谱Transformer模型

《Journal of Chemical Information and Modeling》:SPECTRE: A Multimodal Spectral Transformer for Small Molecule Annotation

【字体: 时间:2026年02月26日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  本文介绍了一种名为SPECTRE (SPECtral TRansformEr) 的最新工具,这是一种基于Transformer架构的先进模型,旨在通过核磁共振(NMR)光谱数据对天然产物(NPs)进行结构解析与注释。该模型的关键创新在于能够灵活接受多种类型的NMR数据输入(如1H–13C HSQC、1H NMR、13C NMR、分子量),并引入了一种新颖的、基于熵优化的无碰撞分子指纹(Sherlock Fingerprints, SF)来提升检索精度。SPECTRE在包含超过52万个分子的挑战性数据库中实现了高达80%的Top-1注释准确率,显著优于前代CNN模型。更重要的是,它是首个能够提供预测结构与检索结果之间精细相似性图谱的工具,实现亚结构级别的可视化解释,从而为化学家理解新分子结构提供关键线索,极大加速了药物早期发现中的结构解析进程。

  
SPECTRE概述
在药物发现领域,尤其是在天然产物(NP)的早期研究中,核磁共振(NMR)光谱是确定化合物化学结构不可或缺的工具。然而,解读复杂的NMR谱图需要深厚的专业知识且极为耗时。为此,一种名为SPECTRE(SPECtral TRansformEr)的新型工具应运而生,它利用先进的Transformer模型,旨在从NMR数据中直接预测分子结构,从而加速这一过程。
核心技术优势
SPECTRE的核心优势在于其灵活性和强大的分子表示能力。首先,它采用了独特的多模态Transformer架构,能够接受多种类型的NMR数据作为输入,包括2D 1H–13C HSQC(标准型和多重性编辑型)、1D 1H NMR、1D 13C NMR以及分子量,并且支持这些数据的任意组合。这种灵活性通过一种名为“数据类型随机丢弃”的训练策略实现,使得SPECTRE能够根据研究者手头可用的任何数据组合进行推理。其次,该模型摒弃了传统的、存在哈希碰撞问题的Morgan指纹,转而采用一种名为Sherlock指纹的新型分子表示。这是一种维度为16,384位的二进制指纹,其中的每一位都基于其在一个大型分子数据集上的熵进行选择,并且建立了局部亚结构与指纹位点之间的一一映射,彻底消除了哈希碰撞。这种高特异性、高信息量的表示方法不仅提升了检索性能,也使得后续的亚结构相似性比对成为可能。最后,SPECTRE的检索库规模空前,包含了超过52万个天然产物候选分子,这是其高精度表现的基础。
模型性能评估
研究者对SPECTRE在两个核心任务上的表现进行了系统评估:结构去重复和结构注释。结构去重复旨在判断一个分子是否已知,而结构注释则针对全新分子,提供一个按相似度排序的候选分子列表。评估使用了一个包含4096个未参与训练分子的测试集。结果表明,SPECTRE在大多数多模态输入组合下,性能均优于为特定输入类型专门训练的模型。例如,当结合HSQC和13C NMR数据时,SPECTRE在结构注释任务上达到了接近80%的Top-1准确率。13C NMR的加入能显著提升仅用HSQC时的表现,而1H NMR由于其化学位移范围窄、且所包含的碳键合质子信息在HSQC中已有体现,其单独的贡献相对有限。特别值得注意的是,SPECTRE是第一个在检索结果中提供“相似性图谱”的工具。这张图谱能以视觉方式高亮显示预测分子与检索分子之间匹配(绿色)或不匹配(粉色)的亚结构区域,为化学家理解候选分子与目标分子在结构上的具体异同提供了直观的线索,这是传统工具所不具备的能力。
实际案例分析
通过多个近期发表的新型天然产物案例,研究展示了SPECTRE的实际应用价值。在针对混合分子(如rhodomollein LVII)的分析中,研究者可以通过选择性输入不同部分的HSQC峰,引导SPECTRE分别识别出分子中的不同骨架结构(如香豆酰奎宁酸部分和grayanane二萜部分),展现了其灵活分析复杂分子的能力。在与前代工具SMART NMR和DeepSAT的直接对比中,SPECTRE也显示出优势。以leptochelin A为例,当单独使用HSQC谱时,三个工具均未能提供有意义的线索。但当SPECTRE结合HSQC和13C NMR数据输入时,其Top-2检索结果(spoxazomicin A和yersiniabactin)中均包含了与目标分子共享的关键杂环(噻唑、噻唑啉、恶唑啉)和水杨酸盐等亚结构,为leptochelin A的结构解析提供了宝贵提示,而其他工具则无法实现。
数据与方法
研究构建了一个名为SPECTRE-DB的大型数据集,包含181,534个分子,其光谱数据来源于JEOL数据库、ACD Laboratories软件模拟以及NP-MRD数据库。在模型训练过程中,除了数据类型随机丢弃外,还引入了“峰值抖动”的数据增强策略,即为每个NMR峰加入微小随机噪声,以提升模型对实验数据与模拟数据之间分布差异的鲁棒性。模型架构上,每个NMR峰被嵌入为一个向量,并与一个表示其数据类型的可学习嵌入相加,随后输入到一个8层的Transformer编码器中,最终预测出16,384维的Sherlock指纹。推理时,通过计算预测指纹与检索库中所有分子指纹的余弦相似度来排序并返回候选结果。
讨论与展望
SPECTRE的成功归因于其新颖的无碰撞高熵指纹、多模态NMR数据融合以及数据类型随机丢弃训练策略。尽管模型主要在天然产物数据上训练,但其基于光谱特征预测分子指纹的原理,使其在原则上可应用于更广阔的化学空间。未来的改进方向包括纳入更多类型的光谱数据以及扩展训练和检索库,以覆盖合成化合物等更广泛的化学领域。该工具已通过用户友好的网站公开提供,旨在成为天然产物研究社区加速新药先导化合物发现过程的有力助手。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号