基于Transformer的生成式化学语言AI模型实现有机化合物结构解析新突破

【字体: 时间:2025年07月13日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  研究人员针对传统计算机辅助结构解析系统(CASE)效率低下的问题,开发了基于Transformer的生成式化学语言AI模型(CLAMS)。该模型通过端到端架构直接生成与输入光谱数据匹配的化学结构,在包含12.7万组IR/UV/1H NMR光谱的数据集上实现83%的top-15准确率,为有机化合物结构鉴定提供了全新解决方案。

  

在有机化学研究领域,化合物结构解析一直是核心挑战。传统计算机辅助结构解析系统(CASE)依赖专家系统和显式编程算法,面对复杂分子时需要耗费数小时进行结构生成和筛选。随着分子尺寸增大,化学结构空间呈指数级扩张,这种基于规则的方法逐渐显现出计算效率瓶颈。更关键的是,传统系统迭代周期长,难以快速整合新型光谱数据和优化算法。

针对这些挑战,研究人员开发了CLAMS(Chemical Language Model for Structural Elucidation)模型。这项创新研究采用类似大型语言模型(LLM)的Transformer架构,将结构解析重构为序列到序列的翻译任务——输入光谱数据作为提示词,输出最可能的SMILES(Simplified Molecular Input Line Entry System)字符串表示分子结构。

研究团队首先构建了包含127,465个有机分子的QM9S数据集,涵盖IR、UV-Vis和1H NMR光谱数据。模型采用Vision Transformer(ViT)作为编码器处理光谱图像,预训练的ChemBERTa作为解码器生成SMILES字符串。通过两阶段训练策略,先在102k光谱数据上预训练功能基团分类器,再微调完整模型。

关键技术包括:1)将1D光谱数据重构为66×66图像输入ViT编码器;2)采用9层自注意力机制提取跨光谱特征;3)结合18类功能基团的多标签分类任务预训练;4)使用15束搜索算法生成Top-k候选结构。

研究结果显示:

  1. 功能基团分类方面,ViT+MLP子网络对18类基团的F1分数达0.92-1.0,显著优于传统CNN和SVM方法。如图2所示,仅用IR数据时分类效果最佳,证明自注意力机制能有效捕捉红外光谱中的长程特征。

  1. 结构解析性能上,整合IR+UV+1H NMR数据的全模型top-15准确率达83.1%,比仅用IR数据提升9%。如图3所示,随着生成数量k增加,准确率提升但骨架准确性下降,表明模型能有效排序最可能结构。

  1. 计算效率方面,CLAMS在8核CPU上仅需2.4秒完成29原子分子的top-15生成,比传统CASE系统快数个数量级。如图5展示的案例所示,模型能正确处理SMILES同义异构表示问题。

这项研究的重要意义在于:首次证明生成式AI能有效解决传统CASE系统的核心瓶颈问题。CLAMS的端到端架构具有三大优势:1)线性计算复杂度,突破化学空间爆炸难题;2)快速迭代能力,便于整合新数据模态;3)天然并行性,适合GPU加速。尽管当前模型在跨功能基组泛化性和实验数据适配方面仍有局限,但为AI驱动的结构解析开辟了新范式。未来整合2D NMR和质谱数据后,有望实现更全面的自动化分子鉴定系统。该成果发表于《Journal of Cheminformatics》,为制药、材料科学等领域的分子表征提供了变革性工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号