基于迁移学习和生成式AI的M1型毒蕈碱受体分类模型开发及其在药物发现中的应用

【字体: 时间:2025年05月13日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对G蛋白偶联受体(GPCR)亚型M1受体在多种疾病治疗中的关键作用,开发了基于机器学习的分类模型。研究人员通过迁移学习框架和生成式AI技术(RNN和REINVENT4)解决了生物活性数据不平衡问题,显著提高了模型对非活性化合物的识别能力。该研究为快速筛选大型化合物库提供了可靠工具,对神经病变、慢性阻塞性肺病等疾病的药物研发具有重要价值。

  

在神经退行性疾病、慢性阻塞性肺病和神经毒剂暴露等重大健康问题的治疗中,M1型毒蕈碱受体作为G蛋白偶联受体(GPCR)家族的重要成员,已成为关键药物靶点。然而,现有药物筛选方法面临两大挑战:公开生物活性数据中活性与非活性化合物比例严重失衡,以及传统计算方法难以全面覆盖复杂的化学空间。这种数据不平衡问题导致机器学习模型产生偏差,往往将所有测试化合物预测为占多数的活性类别,严重限制了虚拟筛选的实用性。

美国国防部生物技术高性能计算软件应用研究所的研究团队在《Scientific Reports》发表了一项创新研究,通过整合迁移学习和生成式人工智能技术,成功开发出高精度的M1受体分类模型。该研究不仅解决了数据不平衡这一长期困扰药物发现的瓶颈问题,还为GPCR靶向药物开发提供了新范式。

研究采用了四项关键技术:1)从GLASS数据库获取118,865个GPCR配体数据构建迁移学习框架;2)使用字符级循环神经网络(CharRNN)生成200,000个非活性化合物;3)应用基于Transformer的REINVENT4模型生成8,919个非活性分子;4)采用1,024位Morgan指纹和深度神经网络(DNN)架构进行特征提取与建模。所有数据均来自公开数据库ChEMBL、BindingDB和PubChem。

【数据筛选与处理】研究人员首先从ChEMBL和BindingDB收集M1受体的EC50、IC50和Ki数据,设定≤1μM为活性、≥10μM为非活性的分类标准。通过Tanimoto相似性分析证实,提高非活性阈值可显著减少两类化合物的结构重叠(从1,112对降至359对),最终获得2,308个活性与345个非活性化合物的初始数据集。

【生成式AI技术应用】针对非活性数据稀缺问题,研究比较了两种生成模型:RNN仅产生3%有效分子且环状结构生成率低(22%),而REINVENT4实现了100%有效性并更好保持了原始非活性物的理化性质。通过聚类分析,最终将1,879个RNN生成物和1,816个REINVENT4生成物纳入训练集。

【模型性能验证】在10折交叉验证中,基准DNN模型的马修斯相关系数(MCC)达0.83。但在更具挑战性的支架分割测试集上,特异性从0.81骤降至0.37。引入生成数据后,REINVENT4增强模型使ROC AUC从0.72提升至0.81,G-Mean从0.60增至0.76。对于高度不平衡的HTS测试集(活性:非活性=1:76),特异性从0.08提升至0.56。

【跨靶点适用性】研究进一步验证了该方法在β2肾上腺素受体、腺苷A2a受体等五个GPCR靶点的普适性,显示生成式AI在四分之三的案例中带来显著改进,而迁移学习效果存在波动。

这项研究通过创新性地结合迁移学习和生成式AI,成功突破了GPCR药物发现中的数据不平衡瓶颈。特别值得注意的是,REINVENT4模型即使在小样本(275个非活性物)条件下仍能生成高质量化合物,其性能显著优于传统方法如SMOTE-ENN。研究建立的M1分类模型不仅可用于Enamine REAL等超大型化合物库(650亿分子)的快速筛选,其方法论框架更为整个GPCR家族的靶向药物开发提供了新思路。该成果标志着人工智能在解决生物医学数据本质不对称性方面迈出了重要一步,为神经病变、认知障碍等重大疾病的药物研发开辟了新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号