突破传统:Transformer 架构开启生物降解途径预测新篇

【字体: 时间:2025年02月19日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  为解决传统生物降解预测方法的局限,奥克兰大学的研究人员开展了用 transformer 架构预测生物降解途径的研究。结果显示 enviFormer 表现出色,该研究提升了预测能力,为相关领域提供新方法,值得科研人员一读。

  
随着全球对常用化学品环境影响的关注度日益提高,许多监管机构都在大力推动新型环保化学品的研发。在这样的大背景下,对化学品生物降解进行建模变得至关重要。一方面,它有助于设计出对环境无害的新化学品;另一方面,这也是符合新监管标准的必要举措。

以往,研究人员要想了解化学品的生物降解情况,往往得在化学实验室里辛辛苦苦地设置并重复做实验,这一过程既耗时又费钱。后来,高效准确的生物降解预测方法出现了,大大加快了新型化学品的研发速度。传统的生物降解预测方法主要依赖专家知识来进行预测。专家们总结出一些规则,用来描述降解途径中常见的反应类型。但是,随着新数据集变得越来越复杂多样,创建这些专家知识的难度也越来越大。而且,这些规则很容易过于笼统,导致一个化合物可能适用很多规则,进而产生大量预测产物,出现组合爆炸的问题。比如在分析整个生物转化途径时,产物数量会随着图表层级的增加呈指数级增长。尽管之前有人通过训练机器学习模型来预测产物的可能性,从而减少不太可能出现的产物,但这种方法还是离不开专家规则。

最近,有人提出从生物降解数据中生成类似专家规则的方法。不过,这种生成的规则或者现有的专家规则都存在一些问题。比如规则的覆盖率低,无法应用于所有生物降解反应,导致有些化合物根本没法预测;而且用这些规则来模拟反应,计算量很大,预测速度很慢。

为了解决这些难题,来自奥克兰大学计算机科学学院的 Liam Brydon 等人在《Journal of Cheminformatics》期刊上发表了一篇名为 “Predictive modeling of biodegradation pathways using transformer architectures” 的论文。他们提出了 enviFormer 这个全新的方法,它可以更高效、准确地预测生物降解反应产物和途径,并且不需要依赖规则。这一研究成果意义重大,为生物降解预测领域带来了新的突破,让研究人员在这个领域有了更强大的工具。

在这项研究中,研究人员主要用到了以下几个关键技术方法:

  • 序列到序列预测任务:把生物降解产物预测问题看作是一个序列到序列的生成任务,利用自然语言处理中的编码器 - 解码器变压器模型来实现从反应物分子的 SMILES 序列(一种用于表示 3D 分子结构的序列)预测生物降解产物的 SMILES 序列。
  • 数据预处理:对反应中的所有分子 SMILES 进行一系列标准化处理,去除立体化学信息,保证模型输入的一致性,便于和现有方法进行比较。
  • 迁移学习:先在包含约 1,000,000 个反应的美国专利商标局(USPTO)数据集上对模型进行预训练,让模型学习化学反应中常见的子结构变化和输出符合语法的 SMILES 序列,然后再在较小的生物降解数据集上对模型进行优化。
  • 评估方法:提出了一种全新的评估框架,包含 Top - K、单代(Single Generation)和多代(Multi Generation)评估方法,从不同角度对模型性能进行评估。

下面我们来看看具体的研究结果:

  1. 覆盖率:覆盖率指的是模型能够应用于数据集反应的比例。研究发现,enviFormer 在土壤(Soil)、生物催化 / 生物降解数据库(BBD)和污泥(Sludge)数据集上都能达到 100% 的覆盖率,而依赖转换规则的 enviRule 在 BBD 数据集上的覆盖率只有 77%,在 Soil 数据集上为 88%,在 Sludge 数据集上为 91%。这表明 enviFormer 可以对更广泛的反应进行预测,适用范围更广。
  2. Top - K 结果:研究人员用传统的 Top - K 准确率指标对模型进行评估。结果显示,在 USPTO 数据集上,预训练模型的表现和其他论文报道的结果差不多。在 Soil、BBD 和 Sludge 数据集上,随着 K 值的增大,模型的准确率有显著提高,比如从 Top - 1 到 Top - 2,准确率提升明显。这是因为这些数据集中很多反应物有多个有效的产物集,Top - 1 只能预测一个产物集,而更大的 K 值能让模型预测多个产物集,从而提高分数。不过,这也凸显了 Top - K 评估方法的不足,它没有考虑到预测多个产物时精度的下降等问题。
  3. 迁移学习:研究表明,迁移学习对 enviFormer 的性能提升有很大帮助。通过对比不同训练集的实验发现,使用包含生物降解反应数据的训练集进行迁移学习后,模型在单代评估中的 AUC 值最高可提升 5.6 倍,在多代评估中最高可提升 3.75 倍。即使训练数据不是完全来自目标领域,模型也能从中受益。
  4. 不同数据集上的表现
    • BBD 数据集:在 BBD 数据集上,现有的 enviPath 规则表现比 enviFormer 和 enviRule 都好。在单代评估中,enviFormer 的召回率和现有规则差不多,都是 0.48,但精度较低。不过,enviFormer 的表现还是优于 enviRule,召回率更高,AUC 值为 0.16,而 enviRule 只有 0.11。在多代评估中,enviFormer 的召回率略高于 enviPath 规则,为 0.55,而 enviPath 规则为 0.5,但精度依然较低。这说明针对 BBD 数据集设计的专家规则经过了高度优化,效果很好。
    • Soil 数据集:在 Soil 数据集的单代评估中,enviFormer 和 enviRule 的 AUC 值相同,但 enviRule 在召回率为 0.1 - 0.35 时精度更高,不过最大召回率为 0.4,低于 enviFormer 的 0.54。在多代评估中,enviFormer 全面超越 enviRule,AUC 值为 0.03,高于 enviRule 的 0.016,最大召回率也更高,为 0.55,而 enviRule 为 0.42。而且,这两种方法都比 Soil 数据集现有的专家规则表现好,这意味着 Soil 数据集的专家规则可能还不够完善,在这种情况下 enviFormer 优势明显。
    • Sludge 数据集:在 Sludge 数据集上,由于没有专家规则,研究人员进行了留一法实验,即使用 Soil 和 BBD 的反应数据进行训练,用 Sludge 数据进行测试。在单代评估中,三种方法表现相近,enviPath 的召回率最高,为 0.46,AUC 值为 0.185。enviFormer 和 enviRule 的精度在大部分曲线中相似,但 enviFormer 的峰值召回率为 0.35,低于 enviRule 的 0.42。在多代评估中,enviFormer 的 AUC 值最高,为 0.011,虽然召回率只有 0.25,但精度比其他方法高。总体来看,在多代评估场景下,enviFormer 在 AUC 值和峰值精度方面表现最佳。

  5. 运行时性能:研究人员还比较了 enviFormer 和 enviPath 现有混合规则机器学习方法的运行时间。结果发现,enviFormer 在所有测试的批量大小下都比 enviPath 方法快约 8 倍,并且使用 GPU 加速时性能最佳。就算没有 GPU,仅用 CPU 运行,enviFormer 的性能也只是略逊一筹。

从研究结论和讨论部分可以看出,enviFormer 在覆盖率和计算效率方面有显著提升。它能在多个数据集上实现 100% 的覆盖率,这是基于规则的方法无法比拟的,这意味着 enviFormer 可以应用于更多的反应,是一个更通用的生物降解预测工具。同时,它的计算效率更高,预测速度比现有方法快很多,在分析大量化合物或预测整个途径时非常有优势。

迁移学习对于 enviFormer 预测生物降解产物的能力至关重要。这表明像 USPTO 这样的通用大型数据集和生物降解反应数据集差异较大,不能直接使用现成的模型,而迁移学习可以帮助模型更好地适应生物降解预测任务。

和主要竞争对手 enviRule 相比,enviFormer 在不同数据集上各有优劣,但总体表现相当甚至更优。在规则不完善或者没有规则的情况下,enviFormer 的优势更加明显,比如在 Soil 数据集上的表现就证明了这一点。这一研究成果为生物降解预测领域的研究人员提供了新的思路和方法,让他们在研究过程中有了更好的选择,推动了该领域的发展。不过,研究也存在一些局限性,比如目前的方法都没有将环境背景信息纳入预测,未来可以在这些方面进行进一步的研究和探索。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号