
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于IUPAC命名法的分子预训练模型(IUPAC-GPT)在性质预测与分子生成中的应用研究
【字体: 大 中 小 】 时间:2025年07月05日 来源:Molecular Diversity 3.9
编辑推荐:
为解决化学分子表示语言在可读性与计算效率上的矛盾,研究人员开发了基于IUPAC命名法的预训练模型IUPAC-GPT。该模型通过冻结参数结合轻量级网络微调,在分子生成、二元分类和性质回归预测任务中展现优异性能,其语义抽象能力显著优于SMILES-based模型,为化学信息学提供了兼具人类可解释性与机器友好性的新范式。
国际纯粹与应用化学联合会(IUPAC)命名法作为化学物质命名的黄金标准,本质上是一种人类友好的分子亚结构语言;而简化分子线性输入规范(SMILES)则是当前最流行的原子级计算机友好型分子表示法。研究团队创新性地构建了IUPAC-GPT这一化学语言模型,通过对比研究两种分子表示体系在生成任务和回归/分类任务中的表现差异。该模型采用Transformer架构,在预训练阶段捕获化学通用知识后,通过冻结主干网络参数并添加可训练轻量模块实现下游任务微调。实验数据表明,基于IUPAC语料预训练的模型在部分性质预测任务中超越SMILES-GPT,尤其在化学基团修饰的语义抽象和可解释性方面展现出独特优势。这项研究为化学信息学领域提供了新型分子表示范式,其兼具人类可读性与机器处理效率的特性,有望推动药物发现和材料设计等领域的发展。
生物通微信公众号
知名企业招聘