
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer的生成式化学语言AI模型实现有机化合物结构解析新突破
【字体: 大 中 小 】 时间:2025年07月13日 来源:Journal of Cheminformatics 7.1
编辑推荐:
研究人员针对传统计算机辅助结构解析系统(CASE)效率低下的问题,开发了基于Transformer的生成式化学语言AI模型(CLAMS)。该模型通过端到端架构直接生成与输入光谱数据匹配的化学结构,在包含12.7万组IR/UV/1H NMR光谱的数据集上实现83%的top-15准确率,为有机化合物结构鉴定提供了全新解决方案。
在有机化学研究领域,化合物结构解析一直是核心挑战。传统计算机辅助结构解析系统(CASE)依赖专家系统和显式编程算法,面对复杂分子时需要耗费数小时进行结构生成和筛选。随着分子尺寸增大,化学结构空间呈指数级扩张,这种基于规则的方法逐渐显现出计算效率瓶颈。更关键的是,传统系统迭代周期长,难以快速整合新型光谱数据和优化算法。
针对这些挑战,研究人员开发了CLAMS(Chemical Language Model for Structural Elucidation)模型。这项创新研究采用类似大型语言模型(LLM)的Transformer架构,将结构解析重构为序列到序列的翻译任务——输入光谱数据作为提示词,输出最可能的SMILES(Simplified Molecular Input Line Entry System)字符串表示分子结构。
研究团队首先构建了包含127,465个有机分子的QM9S数据集,涵盖IR、UV-Vis和1H NMR光谱数据。模型采用Vision Transformer(ViT)作为编码器处理光谱图像,预训练的ChemBERTa作为解码器生成SMILES字符串。通过两阶段训练策略,先在102k光谱数据上预训练功能基团分类器,再微调完整模型。
关键技术包括:1)将1D光谱数据重构为66×66图像输入ViT编码器;2)采用9层自注意力机制提取跨光谱特征;3)结合18类功能基团的多标签分类任务预训练;4)使用15束搜索算法生成Top-k候选结构。
研究结果显示:



这项研究的重要意义在于:首次证明生成式AI能有效解决传统CASE系统的核心瓶颈问题。CLAMS的端到端架构具有三大优势:1)线性计算复杂度,突破化学空间爆炸难题;2)快速迭代能力,便于整合新数据模态;3)天然并行性,适合GPU加速。尽管当前模型在跨功能基组泛化性和实验数据适配方面仍有局限,但为AI驱动的结构解析开辟了新范式。未来整合2D NMR和质谱数据后,有望实现更全面的自动化分子鉴定系统。该成果发表于《Journal of Cheminformatics》,为制药、材料科学等领域的分子表征提供了变革性工具。
生物通微信公众号
知名企业招聘