GPCR-A17 MAAP:基于集成机器学习的GPCR-A17亚家族配体功能预测新工具

【字体: 时间:2025年07月13日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  本研究针对GPCR-A17亚家族受体配体功能分类难题,开发了集成XGBoost、随机森林和LightGBM的GPCR-A17 MAAP预测模型。通过分析6,900余组蛋白-配体相互作用数据,模型在测试集和独立验证集中分别实现0.9179和0.7151的F1值,Ki值过滤后性能进一步提升。该成果为靶向GPCR的药物发现提供了高效计算工具,相关代码已在GitHub开源。

  

在生命科学领域,G蛋白偶联受体(GPCR)作为最大的膜蛋白家族,一直是药物开发的重要靶点。其中GPCR-A17亚家族包含多巴胺受体(D1R-D5R)、5-羟色胺受体(5-HT2A, 5-HT2B, 5-HT2C, 5-HT6R)和肾上腺素受体(α1A, α1B, α1D, α2A-C, β13)等21个成员,与心血管疾病、精神障碍和代谢紊乱等多种疾病密切相关。然而,传统实验方法鉴定配体功能耗时费力,且现有计算模型多局限于激动剂/拮抗剂二元分类,忽视了对调节剂(如变构调节剂)的预测能力。

为解决这一瓶颈,葡萄牙科英布拉大学神经科学与细胞生物学中心(CNC-UC)的Ana B. Caniceiro团队在《Journal of Cheminformatics》发表研究,开发了GPCR-A17 MAAP预测系统。该研究整合Guide to Pharmacology、ChEMBL等数据库的6,919组相互作用数据,创新性地采用三级分类框架(激动剂/拮抗剂/调节剂),并首次将受体序列特征与配体化学描述符相结合。关键技术包括:1) 使用Mold2提取625维配体描述符;2) 通过ProtTrans生成1,024维蛋白质嵌入;3) 采用Optuna优化XGBoost等6种算法的800组超参数;4) 开发基于概率融合的集成策略提升预测鲁棒性。

模型构建与性能评估

研究团队通过系统比较六种机器学习算法,发现XGBoost、随机森林(RF)和LightGBM在测试集中表现最优(F1值0.902-0.904)。创新性地采用"概率融合"集成技术后,最终GPCR-A17 MAAP模型在测试集实现0.9179 F1值和0.9766 AUC,特异性达0.9703。独立验证中,对全新配体的预测精度保持0.7151 F1值,显著优于传统方法。

Ki值过滤的优化效应

通过构建4,274组Ki值过滤数据集,模型性能进一步提升:测试集F1值达0.9330,独立验证集达0.8267。特征重要性分析显示,氢键供体数(D712)、疏水性指数(D775)等分子描述符与ProtTrans蛋白嵌入共同主导预测结果,而Ki值本身仅在部分模型中显现重要性,证实数据质量(而非单一Ki特征)是性能提升的关键。

典型案例验证

模型成功预测了TA1R受体与右苯丙胺(dexamfetamine)的激动作用(图3),以及α1A肾上腺素受体与氯米帕明的拮抗活性,与实验数据高度一致。特别值得注意的是,其对5-HT2A受体与CHEMBL211301复合物的拮抗作用预测,修正了基础模型的错误判断。

研究意义与展望

该研究突破了现有GPCR配体预测工具的三大局限:1) 首次实现激动剂/拮抗剂/调节剂的三元分类;2) 整合受体序列特征增强生物学相关性;3) 通过Ki值过滤策略建立高置信度数据集。尽管存在数据集不平衡(调节剂样本较少)和亚家族特异性等限制,GPCR-A17 MAAP为靶向药物筛选提供了新范式。未来扩展至其他GPCR亚家族时,需重点解决少数类样本不足问题,并探索跨亚家族的迁移学习策略。

这项工作的开源特性(代码发布于GitHub)将加速GPCR靶向药物的发现进程,特别是为精神分裂症(多巴胺受体靶向)、高血压(肾上腺素受体靶向)等疾病的治疗提供新思路。通过计算预测指导实验验证,可显著降低药物研发成本,推动个性化医疗发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号