基于多模态深度学习框架的抗氧化肽构效关系精准预测与生成设计研究
《Journal of Cheminformatics》:Accurate structure-activity relationship prediction of antioxidant peptides using a multimodal deep learning framework
【字体:
大
中
小
】
时间:2025年11月04日
来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对抗氧化肽(AOP)发现效率低的问题,开发了集成6种序列表征与堆叠神经网络(CNN-BiLSTM-Transformer)的多模态QSAR框架。该模型在测试集上准确率超0.90,AUROC达0.95,并通过SHAP分析识别出脯氨酸(P)、亮氨酸(L)等关键活性氨基酸。结合WGAN-GP生成模型,成功筛选出604个高置信度AOP候选物,为功能肽研发提供了高效计算平台。
在当今社会,氧化应激已成为多种慢性疾病的重要诱因。当体内活性氧(ROS)的产生超过机体清除能力时,就会导致脂质、蛋白质和核酸等细胞成分的氧化损伤,进而引发心血管疾病、神经退行性疾病、糖尿病和癌症等健康问题。为了对抗这些有害影响,生物体进化出了复杂的抗氧化防御系统,其中抗氧化肽(AOP)因其安全性高、生物利用度好和多功能生物活性而备受关注。
传统上,新肽的发现主要依靠实验筛选,但这种方法成本高、周期长。近年来,深度学习在化学和肽类的定量构效关系(QSAR)研究中展现出巨大潜力。卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)和Transformer等架构已成功应用于多功能肽的分类,为治疗性肽的发现开辟了新途径。然而,现有抗氧化肽预测工具在准确性和生成新候选肽能力方面仍有提升空间。
在这项发表于《Journal of Cheminformatics》的研究中,Huynh Anh Duy和Tarapong Srisongkram开发了一种创新的多模态深度学习框架,不仅能够高精度预测抗氧化肽活性,还能生成具有潜在抗氧化活性的新肽序列。
研究人员整合了六种序列表征方法(包括氨基酸组成、二肽组成、伪氨基酸组成等)与三种深度学习架构(CNN、BiLSTM和Transformer),构建了33种预测模型。通过堆叠集成策略,最佳模型在测试集上准确率达到0.91,AUROC为0.95,AUPRC为0.97,MCC超过0.80。SHAP分析揭示了影响抗氧化活性的关键氨基酸残基。此外,研究采用带有梯度惩罚的Wasserstein生成对抗网络(WGAN-GP)生成新肽序列,并通过高精度预测模型筛选出604个高置信度AOP候选物。
研究从AODB数据库获取1467个独特AOP作为正样本,从文献收集1501个非AOP作为负样本。采用八种序列表征方法(氨基酸组成、二肽组成、伪氨基酸组成、物理化学特征、独热编码、ESM嵌入、序列标记和3-mer特征)作为模型输入。构建了CNN、BiLSTM和Transformer三种基础架构,并开发了带全连接神经网络(FCNN)元模型和不带元模型(概率平均)两种堆叠策略。通过SHAP分析识别关键特征,使用WGAN-GP生成新序列,并通过UMAP、t-SNE、香农熵和汉明距离评估生成质量。
研究人员系统比较了八种序列表征与四种神经网络架构组合的33种预测模型。结果显示,基于独热编码的堆叠神经网络(含元模型)表现最佳,准确率达0.91,MCC为0.82,AUROC为0.95,AUPRC为0.97。而不带元模型的简单概率平均策略也表现出色,与完整堆叠模型性能相当。
在外部队列验证中,该模型在AOPP和AnOxPP测试集上均表现出竞争优势。在AOPP测试集上准确率达0.89,与原始工具(0.90)相当;在AnOxPP测试集上准确率提升至0.95,优于原工具(0.94)。这表明该框架具有强大的泛化能力。
通过SHAP分析,研究人员揭示了影响抗氧化肽预测的关键氨基酸特征。脯氨酸(P)、亮氨酸(L)、丙氨酸(A)、酪氨酸(Y)和甘氨酸(G)显示正SHAP值,表明这些残基的存在会增加肽被分类为抗氧化剂的可能性。相反,甲硫氨酸(M)、半胱氨酸(C)、色氨酸(W)、天冬酰胺(N)和苏氨酸(T)主要呈现负贡献,表明这些残基的存在会促使模型预测为非AOP。
研究采用WGAN-GP架构从1467个原始AOP生成新序列。经过去重后获得856个独特新肽。通过UMAP和t-SNE分析表明,生成肽与原始肽在多种表征空间中都呈现良好重叠,说明生成模型有效捕捉了原始肽的序列特征。
香农熵分析显示生成肽(均值=2.18)比原始肽(均值=2.04)具有略高的序列内多样性。标准化汉明 pairwise 距离分析表明两组肽具有相当的序列间多样性(均值≈0.96)。氨基酸组成分析显示生成肽与原始肽的分布高度相似(Wasserstein距离=0.0049),关键活性残基得到良好保留。
对856个生成肽进行筛选,设置严格阈值(预测概率>0.9)。带元模型的堆叠网络识别出710个AOP,而不带元模型的策略识别出616个。取交集获得604个高置信度AOP候选物。
理化性质比较显示,候选肽在分子量、序列长度、疏水性等7个关键属性上与原始AOP无显著差异。值得注意的是,所有候选肽分子量均低于3000 Da,其中72%低于1000 Da,这符合高效AOP的典型特征。GRAVY值位于-0.5至+0.5理想区间,约61%候选肽的不稳定性指数低于40,表明具有良好的稳定性。
消融实验表明,完整的三模型集成架构性能最优,移除任一组件都会导致性能下降。在带元模型的堆叠中,Transformer贡献最大;而在概率平均策略中,BiLSTM最为关键。个体模型性能明显低于集成模型,证实了多架构集成的价值。
计算时间评估显示,CNN最为高效(训练11.14秒),Transformer计算成本最高(训练114.84秒)。两种堆叠策略总时间相近(约270秒),无显著差异。
该研究成功开发了一个集预测与生成为一体的多模态深度学习框架,实现了抗氧化肽的高精度预测和新候选肽的高效生成。该框架在多个测试集上表现出优异性能,SHAP分析提供了模型可解释性,生成模型扩展了候选肽空间。鉴定的604个高置信度AOP候选物为后续实验验证提供了重要资源。
这项研究的创新性在于将多种序列表征与先进的深度学习架构有机结合,建立了从预测到生成的完整计算流程。不仅提升了抗氧化肽预测的准确性,还实现了新肽的理性设计,为功能肽的发现提供了新范式。该方法可扩展至其他生物活性肽的发现,在功能食品、化妆品和药物开发领域具有广泛应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号