基于支持向量机模型的虚拟可合成化合物快速评估方法及其在药物发现中的应用

【字体: 时间:2025年08月04日 来源:Molecular Informatics 3.1

编辑推荐:

  这篇研究论文创新性地提出了一种基于支持向量机(SVM)和支持向量回归(SVR)的快速评估方法,通过设计反应物级联核函数(PK),实现了对6.4×1012种虚拟反应物组合的高效筛选(8天内完成)。研究验证了该方法在10种靶蛋白(如5-羟色胺受体1A、大麻素受体1等)的120个数据集上的预测准确性,其数据增强策略使模型性能媲美传统Tanimoto核函数模型,为大规模虚拟合成化合物库的活性预测提供了新范式。

  

引言

在数据驱动的药物发现中,定量构效关系(QSAR)模型常用于虚拟筛选(VS),但传统方法难以应对数十亿级虚拟分子的评估挑战。本研究聚焦支持向量机(SVM)和支持向量回归(SVR)模型,通过反应物级联核函数(PK)设计,实现了对虚拟可合成化合物的快速活性预测。该方法特别适用于基于特定反应路径(如SN2反应生成叔胺)的虚拟分子库构建,解决了合成可行性(synthesizability)与计算效率的双重瓶颈。

计算方法

虚拟分子评估框架

研究提出三步工作流:

  1. 反应物提取:通过逆合成分析将训练化合物(如ChEMBL数据库来源)分解为反应物对,标记反应中心同位素以区分原子类型;

  2. 模型构建:采用扩展连通性指纹(ECFP4)表征分子,设计PK函数(公式1),其核值为各反应物Tanimoto核函数的乘积;

  3. 高效筛选:预计算支持向量与候选反应物的核矩阵,通过线性运算(公式2)实现1010组合的快速评分。

数据增强是关键创新:当反应模板对同一产物存在多重切割路径时,虚拟反应物对会被纳入训练集,显著提升模型对未知反应物的泛化能力(图4案例显示MAE降低23%)。

对比模型设计

除SVR-PK外,研究对比了三种方法:

  • SVR-SK(求和核函数)

  • SVR-concatECFP(反应物指纹拼接)

  • 基线模型(基于产物ECFP4)

  • 图神经网络MolCLR(经迁移学习微调)

实验验证

从ChEMBL中筛选10个靶点的60个反应数据集(表1),如5-羟色胺受体1A(CHEMBL214)的胺化反应数据集含2504个反应物对。采用两种数据划分策略:

  • 产物划分:确保测试集产物与训练集无重叠;

  • 反应物划分:严格隔离反应物与产物的训练-测试交叉。

结果与讨论

预测准确性

在反应物划分测试中,SVR-PK的R2中位数达0.34,与基线模型(0.35)无显著差异(Wilcoxon检验p>0.05,表2)。数据增强使60%数据集性能提升,尤其对低频反应物(图3b)。案例显示,某胺类化合物通过虚拟切割路径扩充后,预测误差从1.2 pKi降至0.4(图4c)。

虚拟分子生成

在6.4×1012组合筛选中(反应数据集ID9),SVR-PK耗时8天(单机),较Thompson采样法快15倍(图5)。生成的分子中:

  • 优势:9871个通过逆合成验证(表3),预测pKi范围8.49-9.57;

  • 局限:分子多样性较低(平均3556个支架vs采样法的6538个),因偏好高频反应物(图7)。

性质分析(图6)显示SVR-PK分子更小(平均MW 320 vs 380)、合成难度更低(SAscore 2.8 vs 3.5),但牺牲了部分结构新颖性。

应用边界与展望

模型适用域(图8)分析表明,当测试反应物最大核值<0.2时预测失效。未来可结合多步反应模板与适用域过滤,进一步扩展化学空间探索能力。该方法为定向合成生物活性分子提供了高效计算工具,尤其适用于已知反应路径的聚焦库设计。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号