基于Transformer的生成式化学语言AI模型实现有机化合物结构解析新突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月13日 来源：Journal of Cheminformatics 7.1

编辑推荐：

　　研究人员针对传统计算机辅助结构解析系统(CASE)效率低下的问题，开发了基于Transformer的生成式化学语言AI模型(CLAMS)。该模型通过端到端架构直接生成与输入光谱数据匹配的化学结构，在包含12.7万组IR/UV/1H NMR光谱的数据集上实现83%的top-15准确率，为有机化合物结构鉴定提供了全新解决方案。

在有机化学研究领域，化合物结构解析一直是核心挑战。传统计算机辅助结构解析系统(CASE)依赖专家系统和显式编程算法，面对复杂分子时需要耗费数小时进行结构生成和筛选。随着分子尺寸增大，化学结构空间呈指数级扩张，这种基于规则的方法逐渐显现出计算效率瓶颈。更关键的是，传统系统迭代周期长，难以快速整合新型光谱数据和优化算法。

针对这些挑战，研究人员开发了CLAMS（Chemical Language Model for Structural Elucidation）模型。这项创新研究采用类似大型语言模型(LLM)的Transformer架构，将结构解析重构为序列到序列的翻译任务——输入光谱数据作为提示词，输出最可能的SMILES（Simplified Molecular Input Line Entry System）字符串表示分子结构。

研究团队首先构建了包含127,465个有机分子的QM9S数据集，涵盖IR、UV-Vis和1H NMR光谱数据。模型采用Vision Transformer(ViT)作为编码器处理光谱图像，预训练的ChemBERTa作为解码器生成SMILES字符串。通过两阶段训练策略，先在102k光谱数据上预训练功能基团分类器，再微调完整模型。

关键技术包括：1）将1D光谱数据重构为66×66图像输入ViT编码器；2）采用9层自注意力机制提取跨光谱特征；3）结合18类功能基团的多标签分类任务预训练；4）使用15束搜索算法生成Top-k候选结构。

研究结果显示：

功能基团分类方面，ViT+MLP子网络对18类基团的F1分数达0.92-1.0，显著优于传统CNN和SVM方法。如图2所示，仅用IR数据时分类效果最佳，证明自注意力机制能有效捕捉红外光谱中的长程特征。

结构解析性能上，整合IR+UV+1H NMR数据的全模型top-15准确率达83.1%，比仅用IR数据提升9%。如图3所示，随着生成数量k增加，准确率提升但骨架准确性下降，表明模型能有效排序最可能结构。

计算效率方面，CLAMS在8核CPU上仅需2.4秒完成29原子分子的top-15生成，比传统CASE系统快数个数量级。如图5展示的案例所示，模型能正确处理SMILES同义异构表示问题。

这项研究的重要意义在于：首次证明生成式AI能有效解决传统CASE系统的核心瓶颈问题。CLAMS的端到端架构具有三大优势：1）线性计算复杂度，突破化学空间爆炸难题；2）快速迭代能力，便于整合新数据模态；3）天然并行性，适合GPU加速。尽管当前模型在跨功能基组泛化性和实验数据适配方面仍有局限，但为AI驱动的结构解析开辟了新范式。未来整合2D NMR和质谱数据后，有望实现更全面的自动化分子鉴定系统。该成果发表于《Journal of Cheminformatics》，为制药、材料科学等领域的分子表征提供了变革性工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号