13种AI方法系统评估:图神经网络在环肽膜通透性预测中的卓越表现

【字体: 时间:2025年08月29日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对环肽(cyclic peptides)膜通透性预测难题,系统评估了13种机器学习模型(涵盖指纹图谱、SMILES字符串、分子图和2D图像四种分子表征方式),基于CycPeptMPDB数据库中近6000个环肽的PAMPA实验数据,首次全面比较了不同算法在回归、二分类和软标签分类任务中的表现。研究发现图神经网络(DMPNN)在各项指标中显著领先,回归任务优于分类,而传统认为更严谨的骨架分割(scaffold split)策略反而降低模型泛化能力。该研究为加速细胞穿透性环肽的理性设计提供了重要方法学参考。

  

在药物研发领域,环肽(cyclic peptides)正成为对抗"不可成药"靶点的新宠。这类由5-15个氨基酸组成的环状分子,凭借其独特的空间结构能够靶向传统小分子药物难以企及的蛋白-蛋白相互作用界面(PPI)。然而当科学家们为这个发现欢欣鼓舞时,一个顽固的"拦路虎"始终横亘在前——超过90%的环肽无法有效穿透细胞膜,这使得它们虽然能在试管中展现惊人疗效,却难以在活体内发挥作用。

这种膜通透性(membrane permeability)困境背后隐藏着复杂的分子密码。与分子量小于500道尔顿的传统药物不同,环肽的庞大体积和极性骨架使其穿越脂质膜时面临巨大能量壁垒。虽然已有研究提出"变色龙"机制解释部分环肽的穿透能力——即通过构象变化隐藏极性基团——但至今缺乏普适性设计规则。更棘手的是,现有的实验检测方法如平行人工膜渗透性试验(PAMPA)和Caco-2细胞模型不仅耗时昂贵,还受限于不同实验室的测定差异,这使得系统研究构效关系变得异常困难。

面对这一挑战,Wei Liu和Jianguo Li等研究者将目光投向了人工智能。在《Journal of Cheminformatics》发表的最新研究中,他们完成了迄今为止最全面的环肽通透性预测算法评估。研究团队从CycPeptMPDB数据库中精选5758个经PAMPA检测的环肽数据,采用随机分割和骨架分割两种策略,对13种主流算法进行了头对头比较。这些模型覆盖了当前分子表征的四大范式:基于专家知识的指纹图谱(如随机森林RF)、SMILES字符串处理(如长短期记忆网络LSTM)、分子图神经网络(如DMPNN)以及2D图像识别(如ChemCeption)。

关键技术方法包括:1) 使用CycPeptMPDB中长度6/7/10的环肽PAMPA数据建立基准数据集;2) 采用随机分割(8:1:1)和骨架分割策略评估模型泛化能力;3) 设计回归、二分类(PAMPA≥-6为阳性)和软标签分类三种任务形式;4) 比较13种模型在MAE、RMSE、R2和ROC-AUC等指标的表现;5) 分析实验测量误差与预测精度的关系;6) 通过外部测试集(长度8/9环肽)验证跨长度泛化能力。

【实验数据分析】

研究首先揭示了环肽通透性数据的"信噪比"问题。通过系统量化四种实验变异来源,发现即便是相同PAMPA实验,不同实验室报告的差异(0.867±0.631)远超实验室内变异(0.206±0.191)。这一发现为后续模型性能评估提供了重要参照——当预测误差低于0.867时,模型就具备了超越跨实验室差异的实用价值。

【性能比较】

在随机分割测试中,图神经网络展现出统治级表现。特别是定向消息传递神经网络(DMPNN)以MAE 0.347、R2 0.555和ROC-AUC 0.887的成绩全面领先。研究指出其优势源于独特的边特征更新机制,能有效避免原子节点间的"跷跷板"效应(totters),从而更精准捕捉长程相互作用。相比之下,传统RNN因梯度消失问题表现最差(MAE 0.475),而图像识别类模型(如ImageMol)也未能超越图神经网络。

【回归vs分类】

当将预测任务从回归转为二分类(阈值PAMPA=-6)时,所有模型ROC-AUC平均下降0.02。引入软标签分类后,DMPNN的ROC-AUC回升至0.884,接近回归任务水平。这表明连续值预测能保留更多构效关系信息,而硬阈值分类会造成信息损失。

【数据分割策略】

反直觉的是,采用骨架分割的模型在外部测试集上表现显著差于随机分割(DMPNN ROC-AUC从0.885降至0.723)。研究人员推测这可能源于骨架分割过度限制了训练集的化学多样性,反而削弱了模型学习通用特征的能力。

【辅助任务】

尝试通过引入logP和TPSA预测作为辅助任务来提升性能,但收效甚微。这表明传统的溶解性描述符难以捕捉环肽构象变化对通透性的影响,未来可能需要开发基于三维结构的辅助特征。

这项研究通过系统性基准测试揭示了多个关键发现:1) 图神经网络特别是DMPNN架构是目前预测环肽通透性的最优选择;2) 回归任务形式优于分类任务;3) 随机分割可能比骨架分割更有利于模型泛化;4) 当前最佳模型的预测误差(MAE 0.347)已低于跨实验室实验差异(0.867),具备实际应用价值。这些结论为计算辅助的环肽药物设计提供了清晰的方法学指导,同时也暴露出当前技术的局限——特别是对三维构象动态变化的建模不足。随着更多高质量实验数据的积累和几何深度学习技术的发展,未来有望建立更精准的预测体系,加速突破环肽药物开发的通透性瓶颈。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号