基于IUPAC命名法的分子预训练模型(IUPAC-GPT)在性质预测与分子生成中的应用研究

【字体: 时间:2025年07月05日 来源:Molecular Diversity 3.9

编辑推荐:

  为解决化学分子表示语言在可读性与计算效率上的矛盾,研究人员开发了基于IUPAC命名法的预训练模型IUPAC-GPT。该模型通过冻结参数结合轻量级网络微调,在分子生成、二元分类和性质回归预测任务中展现优异性能,其语义抽象能力显著优于SMILES-based模型,为化学信息学提供了兼具人类可解释性与机器友好性的新范式。

  

国际纯粹与应用化学联合会(IUPAC)命名法作为化学物质命名的黄金标准,本质上是一种人类友好的分子亚结构语言;而简化分子线性输入规范(SMILES)则是当前最流行的原子级计算机友好型分子表示法。研究团队创新性地构建了IUPAC-GPT这一化学语言模型,通过对比研究两种分子表示体系在生成任务和回归/分类任务中的表现差异。该模型采用Transformer架构,在预训练阶段捕获化学通用知识后,通过冻结主干网络参数并添加可训练轻量模块实现下游任务微调。实验数据表明,基于IUPAC语料预训练的模型在部分性质预测任务中超越SMILES-GPT,尤其在化学基团修饰的语义抽象和可解释性方面展现出独特优势。这项研究为化学信息学领域提供了新型分子表示范式,其兼具人类可读性与机器处理效率的特性,有望推动药物发现和材料设计等领域的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号