MSF-CPMP:一种用于预测环肽膜通透性的新型多源特征融合模型

《Computational and Structural Biotechnology Journal》:MSF-CPMP: A Novel Multi-Source Feature Fusion Model for Prediction of Cyclic Peptide Membrane Permeability

【字体: 时间:2025年11月21日 来源:Computational and Structural Biotechnology Journal 4.1

编辑推荐:

  分子结构多样性及膜渗透性预测准确率显著提升。研究提出MSF-CPMP多源特征融合模型,整合SMILES序列、图结构及物化性质三重特征,采用Transformer与图注意力网络协同学习。实验表明该模型在8种非深度学习方法和10种深度学习方法中均取得最优性能,AUROC达0.9546,准确率0.9062,较现有方法提升5%-10%。通过消融实验验证各模块必要性,可视化分析显示特征空间有效分离正负样本。研究为复杂生物分子预测提供新范式,具有药物研发应用价值。

  循环肽因其固有的稳定性和结构多样性,在药物发现领域正变得越来越受欢迎。然而,这些药物的高潜力受到其有限的跨细胞膜渗透能力的挑战。为了预测循环肽的膜渗透性(CPMP),研究人员设计并使用了越来越多的计算模型或工具。然而,现有的算法或模型往往未能充分捕捉循环肽的特征多样性。为此,我们提出了一种名为MSF-CPMP的新型多源特征融合模型,旨在提高循环肽膜渗透性的预测准确性。该模型整合了从SMILES序列、基于图的分子结构以及循环肽的理化性质中提取的三种特征。通过与非深度学习和深度学习方法的基准测试,MSF-CPMP在诸如准确率(ACC)和AUROC等评估指标中达到了最高水平,并进一步验证了其在学习能力和多源融合方面的鲁棒性。我们的研究结果表明,MSF-CPMP在预测CPMP方面优于其他方法,这展示了先进深度学习方法在解决复杂生物挑战方面的强大潜力,为计算生物学和临床治疗提供了重要贡献。

### 研究背景与意义

循环肽的闭合结构使其具有优异的稳定性、生物活性以及对酶降解的抗性,这些特性使其成为药物开发的重要分子。然而,循环肽在跨细胞膜渗透方面的限制成为其临床应用的一大障碍,尤其是口服给药时的渗透能力不足。这种渗透能力直接影响循环肽的吸收、分布、代谢和排泄特性,从而导致治疗效果降低。因此,在早期药物开发阶段,选择具有较高膜渗透性的循环肽成为关键目标,特别是在治疗复杂疾病如癌症时,有效肿瘤细胞穿透能力至关重要。

传统的CPMP测量方法主要依赖于耗时且昂贵的实验手段,如Caco-2细胞试验。尽管早期研究使用计算方法,如Patric等人和Taha等人的模型,已建立了基础的预测框架,但这些模型往往缺乏可扩展性。近年来,深度学习算法如CycPeptMP被引入,其通过在原子、单体和肽层面设计特征,利用深度学习技术实现了均方误差(MSE)为0.355和相关系数(r)为0.883的预测效果。Cao等人提出的Multi_CycGT模型则通过将图卷积网络(GCN)与Transformer相结合,提取一维和二维特征,以预测CPMP,取得了ACC为0.8206的成果。尽管这些方法在一定程度上取得成功,但它们往往未能充分捕捉循环肽的复杂结构和理化性质,导致对表示方案的敏感性和需要大量数据增强以提高整体性能。

因此,为了加速循环肽药物发现,迫切需要更高效且准确的计算方法或工具,以预测CPMP。MSF-CPMP正是在这一背景下提出,它结合了Transformer和图注意力机制(GAT),能够有效捕捉循环肽的SMILES序列、图结构和理化性质。通过多源特征融合,MSF-CPMP在多个评估指标中表现优异,展示了其在预测CPMP方面的强大能力。

### 方法与模型设计

MSF-CPMP模型采用了一种多源特征融合的架构,旨在整合循环肽的多种特征信息。首先,该模型利用图注意力网络(GAT)对循环肽的图结构进行嵌入,同时通过两个人工神经网络对SMILES序列和理化性质进行嵌入。随后,Siamese网络通过两个Transformer模块对SMILES序列进行编码,并通过Hadamard乘积捕捉序列间的元素级相互作用和结构差异。最后,MSF-CPMP使用一个特征融合模块提取关键的循环肽特征信息,并预测其膜渗透性。

在模型构建过程中,MSF-CPMP特别关注了循环肽的结构和序列特征的相互作用。通过将SMILES序列和图结构的特征进行融合,该模型能够捕捉循环肽的多尺度分子信息,从局部原子特性到全局构象特征。这种多源特征融合的设计不仅提高了模型的预测能力,还克服了单一模态方法在处理复杂分子结构时的局限性。

### 模型评估与性能比较

为了验证MSF-CPMP的性能,我们将其与八种传统的非深度学习方法进行了比较。通过使用CycPeptMPDB(循环肽膜渗透性数据库)中的数据,MSF-CPMP在多个评估指标中表现出色。在十折交叉验证中,MSF-CPMP在几乎所有的指标中都达到了最高水平,其ACC值比其他方法高出0.0932 ~ 0.1433,并且p值≤0.001,显示出显著的优势。此外,MSF-CPMP在AUROC和AUPRC指标上也表现出更高的性能,进一步验证了其在分类任务中的有效性。

在回归任务中,MSF-CPMP同样表现出色,其MSE和MAE值较低,而相关系数(r)较高,这表明其在预测CPMP时具有更小的方差和更高的准确性。通过详细比较分类和回归指标,MSF-CPMP在所有测试中均优于其他方法,展示了其在复杂生物问题中的强大预测能力。

### 特征重要性与模型可解释性

为了进一步理解哪些理化性质对膜渗透性预测最为关键,我们进行了SHAP分析,量化了不同分子描述符的重要性。结果表明,QED(定量估计)具有最高的平均绝对SHAP值(0.518),表明它是最重要的预测因子,其次是Balaban J指数(0.373)、主链单体长度(0.359)和氢键受体数量(0.301)。这些特征的显著性反映了模型对多尺度分子信息的整合能力,从局部原子特性到全局构象特征。

此外,我们还进行了特征重要性分析,以评估不同特征对模型性能的贡献。通过移除不同特征(如MSF-CPMP_noPhysChem、MSF-CPMP_noGraph和MSF-CPMP_noSMILES),我们发现每个特征对模型的预测能力都有重要影响。其中,移除SMILES序列特征导致的性能下降最大,这表明Siamese网络在处理复杂SMILES序列时起到了关键作用。这种设计使得MSF-CPMP能够捕捉到序列中的位置信息和上下文关系,从而提高预测准确性。

### 模型的可扩展性与鲁棒性

为了验证MSF-CPMP在不同数据集上的泛化能力,我们使用了Caco-2、MDCK和RRCK三个独立数据集进行测试。结果显示,尽管这些数据集的大小不同,MSF-CPMP在所有数据集上均表现出色,其在MDCK数据集上实现了1.0000的Recall值,表明其在正样本上的预测能力极强。此外,通过t-SNE可视化,我们发现MSF-CPMP能够有效区分渗透性和非渗透性肽,显示出其在分子特征提取和分类任务中的强大能力。

### 模型的局限性与未来展望

尽管MSF-CPMP在多个方面表现出色,但仍然存在一些局限性。例如,当前模型未显式考虑构象灵活性、溶剂化和三维结构描述符,这些因素在循环肽的膜渗透性预测中可能起到重要作用。此外,模型的泛化能力虽然较强,但在面对更广泛的化学空间和不同的生物系统(如血脑屏障渗透性)时仍有待提升。因此,未来的改进方向包括引入预训练语言模型如ESM-2或ProtBERT/ProtT5,以增强SMILES序列的上下文表示能力。同时,进一步优化模型的计算效率,如通过模型剪枝或量化,可以提升其在高通量药物筛选中的适用性。

### 数据与方法

本研究使用了CycPeptMPDB数据库,该数据库是目前最大的可访问循环肽膜渗透性数据库,由东京工业大学建立,包含7,451个循环肽样本,通过PAMPA、Caco-2、MDCK和RRCK四种方法进行测量。其中,PAMPA数据集包含6,941个样本,而Caco-2数据集包含649个样本,分别使用人结肠癌细胞和犬肾细胞进行测试。MSF-CPMP模型的输入包括SMILES序列、分子图结构和理化性质。在数据预处理过程中,我们排除了那些理化性质中零值较多的样本,以确保模型的准确性。

为了进一步验证模型的泛化能力,我们还使用了三个不同的循环肽数据集进行外部验证。MSF-CPMP_PAMPA模型首先在CycPeptMPDB_PAMPA数据集上通过十折交叉验证进行训练,然后直接测试其在Caco-2、MDCK和RRCK数据集上的表现。结果显示,MSF-CPMP在所有数据集上均表现良好,说明其具备较强的泛化能力。此外,我们还对模型进行了十折交叉验证,确保其在不同数据划分下的性能一致性。

### 总结

MSF-CPMP作为一种基于深度学习的多源特征融合模型,成功整合了循环肽的SMILES序列、图结构和理化性质,从而在预测CPMP方面表现出色。通过与多种非深度学习和深度学习方法的比较,MSF-CPMP在多个评估指标中均取得最佳表现,显示出其在药物发现和计算生物学中的重要价值。未来的研究将进一步优化模型,以提升其在更广泛化学空间和生物系统中的适用性,同时探索更多生物医学信息的整合,以指导复杂人类疾病的治疗。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号