fastprop:构建通用、快速且精准的深度定量构效关系(DeepQSPR)新框架

【字体: 时间:2025年05月14日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  在定量构效关系(QSPR)研究中,传统方法与深度学习方法各有优劣。研究人员开展了关于 fastprop 软件包和通用 Deep-QSPR 框架的研究。结果显示,fastprop 在多数据集上表现卓越。其意义在于提升预测性能,推动相关领域发展。

  在化学领域,分子性质的预测一直是科研人员关注的重点。长久以来,化学家们渴望找到一种方法,能仅依据分子的连接性就推断出其相应的分子性质。定量构效关系(Quantitative Structure–Property Relationship,QSPR)研究正是致力于解决这一问题,它试图建立分子结构与任意目标属性之间的映射关系,若能有效解决,将为分子工程的发展带来巨大推动 。
早期的 QSPR 研究受限于计算能力,需要大量人力投入来设计分子描述符(如 Wiener Index、Atom-Bond Connectivity indices 等),这些描述符虽能反映分子的结构和电子信息,但存在分散、计算不便等问题。同时,当时的回归技术也较为局限,主要依赖线性方法,虽然线性方法能满足领域专家对可解释性的需求,但在处理复杂关系时存在不足。

随着深度学习(Deep Learning,DL)的发展,其在 QSPR 中的应用逐渐兴起。不过,早期 DL 在 QSPR 中的应用多集中于分子指纹,而非分子描述符。尽管深度学习在某些方面展现出优势,如通用性强,但它也存在一些明显的问题。一方面,基于学习表征(Learned Representations,LRs)的方法日益复杂,导致可解释性变差,需要专业的 DL 知识才能运用,这使得领域专家与这些方法之间产生了隔阂。另一方面,在处理小数据集时,LRs 表现不佳,因为模型在训练时缺乏足够的信息,难以有效学习化学直觉,这成为了 LRs 方法的一个根本限制。

为了解决这些问题,美国麻省理工学院(Massachusetts Institute of Technology)的研究人员 Jackson W. Burns 和 William H. Green 开展了一项关于构建新的 QSPR 框架的研究。他们提出了 fastprop,这是一个结合了一组有说服力的分子描述符与深度学习的软件包和通用 Deep-QSPR 框架。

研究人员在研究中用到了多种关键技术方法。首先,利用 mordred 分子描述符计算器计算分子描述符,它能够计算超过 1600 种分子描述符 ,为后续模型训练提供丰富的特征信息。其次,采用 PyTorch Lightning 实现前馈神经网络(Feedforward Neural Network,FNN),搭建预测模型。在训练过程中,对数据进行标准化、缺失值处理等预处理操作,以提升模型性能。

在研究结果方面:

  1. QM9 数据集:QM9 是常用的分子性质预测基准数据集,包含大量小分子的量子力学衍生描述符。fastprop 在 QM9 数据集上,对特定目标(homo、lumo 和 gap)的预测,平均绝对误差(MAE)达到 0.0060 ± 0.0002,优于 Chemprop(0.00814 ± 0.00001),但略逊于 UniMol(0.00467 ± 0.00004)。不过,所有方法都优于基于分子描述符训练的纯线性模型(0.0095 ± 0.0006 MAE) 。
  2. Pgp 数据集:该数据集用于判断小分子药物是否抑制 P - 糖蛋白(Pgp)。fastprop 在这个数据集上的表现接近领先方法,受试者工作特征曲线下面积(AUROC)为 0.903 ± 0.033,准确率为 83.6 ± 4.6%,超过了 Chemprop(AUROC 为 0.886 ± 0.016) 。然而,令人惊讶的是,线性 QSPR 模型在该数据集上表现出色,AUROC 达到 0.917 ± 0.016,接近当前领先水平 。
  3. ARA 数据集:ARA 数据集用于判断分子是否为雄激素受体拮抗剂(ARA)。fastprop 在该数据集上表现出强大的竞争力,准确率达到 88.2 ± 3.7%,AUROC 为 0.935 ± 0.034,而 Chemprop 的准确率仅为 82.4 ± 2.0%,AUROC 为 0.898 ± 0.022 。并且,fastprop 的训练时间大幅短于 Chemprop,仅需 1 分 54 秒,而 Chemprop 则需要 16 分 55 秒 。
  4. Flash 数据集:Flash 数据集包含烷烃和部分含氧化合物的闪点数据。fastprop 在该数据集上的表现与参考研究中复杂的多模型集成方法相当,均方根误差(RMSE)为 13.0 ± 2.0,平均绝对误差(MAE)为 9.0 ± 0.5,平均绝对百分比误差(MAPE)为 2.7% ± 0.1% 。而 Chemprop 表现较差,RMSE 为 21.2 ± 2.2,MAE 为 13.8 ± 2.1,MAPE 为 3.99 ± 0.36% 。在训练时间上,fastprop 仅需 30 秒,而 Chemprop 则需要 5 分 44 秒 。
  5. YSI 数据集:YSI 数据集将分子结构映射到统一尺度的产烟指数(Yield Sooting Index,YSI)。fastprop 在该数据集上的表现优于 Chemprop,接近参考模型的性能。fastprop 的 MAE 为 25.0 ± 5.2,RMSE 为 52 ± 20,加权平均绝对百分比误差(WMAPE)为 13.6 ± 1.3;而 Chemprop 的 MAE 为 28.9 ± 6.5,RMSE 为 63 ± 14,WMAPE 为 16.4 ± 3.0 。在训练时间上,fastprop 仅需 42 秒,而 Chemprop 需要 7 分 2 秒 。
  6. PAH 数据集:PAH 数据集包含多环芳烃的水 / 辛醇分配系数(logP)。fastprop 在这个小数据集上表现出色,相关系数达到 0.972 ± 0.025,MAE 为 0.19 ± 0.10,MAPE 为 2.5 ± 1.5%,与参考研究中设计的定制描述符性能相匹配 。而 Chemprop 在该数据集上表现不佳,相关系数仅为 0.59 ± 0.24,MAE 为 1.04 ± 0.33 。

研究结论和讨论部分指出,fastprop 在不同规模的数据集上都展现出了卓越的性能,在准确性上达到了当前的先进水平,同时还兼顾了速度和可解释性。它克服了 LRs 在小数据集上的局限性,通过使用物理意义明确的分子描述符和 FNN 架构,能够应用 SHAP(一种特征重要性分析工具)进行分析,帮助领域专家更好地理解模型并指导分子设计。然而,fastprop 也存在一些不足之处,例如在处理某些特殊数据集(如 QuantumScents 数据集)时表现不佳,可能是因为 mordred 描述符与目标之间缺乏相关性。此外,在执行时间和描述符覆盖范围等方面也有提升空间。但总体而言,fastprop 为定量构效关系研究提供了一个强大的新工具,对推动化学信息学和分子性质预测领域的发展具有重要意义,相关研究成果发表在《Journal of Cheminformatics》上。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号