图卷积神经网络提升cGAS和kRAS靶向虚拟筛选的特异性评分函数性能

【字体: 时间:2025年05月26日 来源:Computational and Structural Biotechnology Journal 4.5

编辑推荐:

  为解决传统分子对接评分函数在捕获复杂蛋白-配体相互作用模式的局限性,研究人员结合分子图与图卷积神经网络(GCN)开发了靶向特异性评分函数(TSSF)。针对cGAS(先天免疫关键靶点)和kRAS(癌症驱动基因),研究通过PLEC指纹和ConvMol特征构建多模型对比,证实ConvMol-GCN在ROC-AUC(0.98)和EF1%(1.0)等指标上显著优于传统方法,为AI驱动的药物虚拟筛选提供了新范式。

  

在药物发现领域,传统基于结构的虚拟筛查(SBVS)依赖经验性评分函数,这类函数仅含十余个参数,难以捕捉蛋白-配体复合物中复杂的非线性相互作用。尤其对于cGAS(cyclic GMP-AMP synthase)这类先天免疫信号通路关键调控因子,以及kRAS(KRAS GTPase)这种在30%-40%癌症中发生突变的"不可成药"靶点,通用评分函数更易因靶点特异性差异而失效。这导致虚拟筛选效率低下,亟需开发能学习靶点独特结合模式的智能评分体系。

为此,研究人员开展了一项创新性研究,通过融合几何深度学习(GDL)与分子图表示,构建了新一代靶向特异性评分函数(TSSF)。研究选取cGAS(PDB ID: 6LRC)和kRAS(PDB ID: 6GOD)的高分辨率晶体结构,从PubChem等数据库收集配体数据,采用PCA和KMeans聚类将分子按理化性质划分为训练集与测试集。通过DeepCoy算法生成与活性分子性质匹配的诱饵分子,最终构建包含16,000余个复合物的数据集。

关键技术包括:(1)使用Smina分子对接程序生成蛋白-配体复合物构象;(2)提取PLEC(蛋白-配体扩展连通性)指纹和基于GCN的ConvMol卷积分子特征;(3)对比训练随机森林(RF)、XGBoost(XGB)、支持向量机(SVM)、人工神经网络(ANN)及GCN模型;(4)采用5折交叉验证评估ROC-AUC、PR-AUC、EF1%等指标。

3.1 交叉验证验证模型稳健性
通过5折交叉验证发现,ConvMol-GCN在cGAS和kRAS数据集上均表现最优,ROC-AUC接近0.98,MCC(马修斯相关系数)达0.85,显著优于传统机器学习模型。特别是面对活性分子占比不足5%的不平衡数据时,GCN通过类别加权损失函数保持了高召回率。

3.2 评估TSSF外推能力
针对训练集未涵盖的分子结构(测试集活性分子),GCN的PR-AUC仍稳定在0.97以上。相比之下,PLEC-SVM虽表现稳定但精度较低,而RF模型存在显著过拟合现象。这表明GCN通过原子级图卷积操作,能更好捕捉分子拓扑结构的内在规律。

3.3 与通用评分函数对比
相较于Smina、RF-Score等通用评分函数,GCN-TSSF的EF1%(前1%富集因子)在cGAS达到理论最大值,NEF1%(标准化富集因子)为1.0,而CNN-Score在kRAS仅获0.9636。这证实靶向训练能显著提升难成药靶点的识别效率。

3.4 模型实用价值分析
GCN单次预测仅需10-15毫秒(NVIDIA RTX 3090 GPU),内存占用50MB,适合大规模虚拟筛查。研究还发现,GCN对分子结构的微小扰动具有强鲁棒性,这得益于其图卷积层的局部信息聚合机制。

该研究突破性地证实,基于分子图的GCN模型能突破传统指纹特征的局限性,通过端到端学习原子间相互作用模式,显著提升靶向虚拟筛查的准确性。特别是在kRAS这种具有高度构象动态性的靶点上,GCN展现出的外推能力为攻克"不可成药"靶点提供了新思路。研究人员已将模型开源(GitHub/Gardeina/TSSF-GCN),未来可通过引入图注意力网络(GAT)或SE(3)-等变网络进一步优化。这项发表于《Computational and Structural Biotechnology Journal》的工作,为AI驱动的精准药物设计树立了新标杆。

(注:全文严格依据原文数据,专业术语如cGAS=环GMP-AMP合成酶,kRAS=KRAS GTP酶,EF1%=前1%富集因子,MCC=马修斯相关系数等均按原文大小写和格式呈现)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号