EnGCI:通过大型分子模型和 KAN 网络增强 GPCR - 化合物相互作用预测

【字体: 时间:2025年05月16日 来源:BMC Biology 4.4

编辑推荐:

  GPCR - 化合物相互作用(GCI)预测对药物发现至关重要。针对现有模型依赖人工特征工程等局限,研究人员开发 EnGCI 模型,融合 MSBM 和 LMMBM 模块及 KAN 网络。在 GCIset 数据集上实现 AUC~0.89,显著优于传统模型,为 GPCR 药物研发提供新框架。

  
在生命科学和药物研发领域,G 蛋白偶联受体(GPCRs)作为人体最大的膜蛋白家族,一直是药物开发的核心靶点。据统计,约 34% 的 FDA 批准药物靶向 GPCRs,但目前仅有一小部分 GPCRs 被深入研究,大量潜在治疗靶点仍待挖掘。准确预测 GPCR 与化合物的相互作用(GCI)是加速药物发现的关键环节,然而传统方法如分子动力学模拟和机器学习模型面临依赖人工特征工程、难以捕捉 GPCR 动态构象变化、需高质量三维结构数据等挑战。在此背景下,湖北文理学院的研究人员开展了一项创新研究,相关成果发表在《BMC Biology》,为 GCI 预测提供了突破性解决方案。

研究团队开发了名为 EnGCI 的新型集成模型,旨在通过融合多模态信息和先进深度学习技术提升 GCI 预测精度。该模型包含两个核心模块:分子结构基模块(MSBM)和大型分子模型基模块(LMMBM)。MSBM 通过图同构网络(GIN)和一维卷积神经网络(1D-CNN)分别提取化合物和 GPCR 的特征,再利用 Kolmogorov-Arnold 网络(KAN)进行决策;LMMBM 则借助预训练的大型分子模型 Uni-Mol 和 ESM 提取特征,同样通过 KAN 完成分类。最终通过多层感知机(MLP)融合两个模块的输出,实现对 GCI 的精准预测。

研究采用严格构建的 GCIset 数据集(包含 356 个 GPCR、5359 个化合物及 15,343 对相互作用样本),并与 GraphDTA、TransformerCPI 等四种先进模型进行对比。结果显示,EnGCI 在关键指标 AUC(0.88789)、PRC(0.87732)、精度(0.82259)和召回率(0.81377)上均显著优于现有模型,较表现次优的 MFD-GDrug 分别提升 2.89%、1.83%、3.96% 和 8.19%。

性能对比与消融实验
通过消融实验验证各模块贡献:移除 Uni-Mol 或 ESM 导致 AUC 下降约 2.7%-3.0%,同时移除两者使 AUC 暴跌 9.6%,凸显大型分子模型的关键作用;去除 GIN 或 1D-CNN 分别导致 AUC 下降 9.6% 和 3.9%,表明结构特征提取模块的重要性;而移除 KAN 使 AUC 降低 4.1%,证实其在特征整合中的高效性。此外,单独测试显示 MSBM(AUC=0.85779)性能优于 LMMBM(AUC=0.81829),后者因依赖预训练模型的固定输出,在针对 GCI 任务时适应性受限。

特征重要性与可视化分析
SHAP 值分析表明,MSBM 对最终决策的贡献占比达 70.8%,LMMBM 为 29.2%,与 MLP 权重分析结果一致,显示模型更依赖从头训练的结构特征。T-SNE 可视化显示,训练初期正负样本分布随机,随着训练推进,MSBM 和 LMMBM 均能逐渐分离样本,且集成模型通过 MLP 融合后分类边界更清晰,进一步验证多模块协同的有效性。

模型优势与未来展望
EnGCI 的创新在于结合 “从头学习分子特征” 与 “预训练模型提取高阶特征” 的双重策略,通过 KAN 和 MLP 实现决策级融合,突破了传统模型的性能瓶颈。其在无需高质量三维结构数据的情况下,利用序列和图结构信息实现高精度预测,为高通量药物筛选提供了高效工具。尽管当前模型在泛化性和可解释性方面仍有提升空间,但其展现的性能优势已为 GPCR 药物发现开辟了新路径,有望显著降低实验成本并加速靶点识别进程。

这项研究不仅验证了大型分子模型在生物医学领域的应用潜力,更通过多模态融合框架为复杂生物相互作用预测提供了普适性方法,标志着计算生物学在药物研发中的应用迈向新高度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号