基于对比学习与门控卷积神经网络的抗菌肽预测新方法:CG-AMP模型的双模块特征融合策略及其卓越性能
《Scientific Reports》:Antimicrobial peptide prediction based on contrastive learning and gated convolutional neural network
【字体:
大
中
小
】
时间:2025年11月25日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对抗生素耐药性日益严重的公共卫生挑战,开发了一种基于深度学习的抗菌肽(AMP)识别新工具——CG-AMP。该框架创新性地结合了预训练语言模型(ESM-2)的语义特征与包含进化信息(BLOSUM62)和理化性质(Z-scale)的多维手工特征,通过对比学习模块和门控卷积神经网络(GCNN)双模块架构进行高效特征提取与融合。在AMPlify和DAMP独立测试集上,CG-AMP的准确率分别达到0.9497和0.9403,马修斯相关系数(MCC)分别为0.8994和0.8812,显著优于现有主流方法,为加速新型抗菌肽的发现提供了可靠的计算解决方案。
在公共卫生领域,抗生素的过度使用导致细菌耐药性问题日益严峻,已成为全球性的健康威胁。根据美国疾病控制与预防中心(CDC)的报告,仅在美国,每年就有约280万例由耐药菌引起的感染病例,导致超过3.5万人死亡。在欧洲,每年约有3.3万人死于耐药菌感染。因此,开发能够替代传统抗生素的新型抗菌药物迫在眉睫。抗菌肽(Antimicrobial Peptides, AMPs)作为一种具有广谱抗菌活性的小分子肽,能够直接靶向微生物并往往导致细胞裂解,或通过调节宿主免疫系统来增强对微生物的防御能力,其作用速率通常比传统抗生素更快。值得注意的是,尽管细菌在数百万年的进化过程中持续暴露于抗菌肽,但并未产生显著的耐药性,这使其成为极具潜力的抗生素替代品。
然而,通过湿实验大规模筛选新型抗菌肽不仅耗时、昂贵,而且劳动密集型。因此,在过去几十年中,基于机器学习的计算方法被广泛用于加速抗菌肽的识别,并取得了显著成果。尽管现有的机器学习模型(如TriStack、AMPlify等)已展现出良好的性能,但它们仍存在一些局限性:多数方法依赖有限的特征描述符,常常忽略关键的进化信息、理化性质或通过预训练模型提取的特征;许多方法采用简单的特征融合策略或统一的网络架构进行特征提取,未能充分考虑不同特征之间的互补性和多样性;此外,长短期记忆网络(LSTM)等循环神经网络在建模序列上下文关系时参数量大,可能在短肽特征提取过程中引入冗余信息或增加计算开销,影响模型的计算效率和泛化能力。
为了解决上述问题,发表在《Scientific Reports》上的这项研究提出了一种新颖的双模块神经网络框架——CG-AMP,用于抗菌肽的高效识别。该框架的核心创新在于有效整合了多源特征信息,并采用对比学习和门控卷积神经网络(Gated Convolutional Neural Network, GCNN)两种优势互补的模块来学习这些特征。
研究人员为开展此项研究,主要应用了以下几项关键技术方法:首先,从公开权威数据库(APD3、DADP、UniProtKB/Swiss-Prot)收集并严格筛选了AMPlify和DAMP两个基准数据集,确保数据平衡与可靠性。其次,采用多种编码方式表征肽序列信息,包括利用ESM-2预训练语言模型获取1280维的上下文语义特征,以及结合BLOSUM62(进化信息)、Z-scale(理化性质)和One-Hot编码构建45维的多维手工特征。第三,设计了双模块特征学习架构,其中对比学习模块使用多层感知机(MLP)编码器,通过监督对比损失函数优化ESM-2特征的表征空间,增强类间区分度;GCNN模块则利用并行卷积分支(核尺寸3,5,7)和门控线性单元(GLU)机制高效提取多维特征的序列上下文信息,并引入残差连接提升训练稳定性。最后,通过线性融合策略整合双模块输出的特征,并采用全局最大池化降维,使用交叉熵损失函数进行模型训练与优化。模型在NVIDIA RTX 3090Ti GPU上基于PyTorch框架实现。
CG-AMP模型采用双模块架构。第一个模块专注于学习预训练语言模型(ESM-2)提供的特征表示空间,并通过对比学习进行优化。第二个模块则采用增强的卷积神经网络(CNN),具体为门控卷积神经网络(GCNN),以更高效地提取手工构建的多维特征(包括BLOSUM62、Z-scale和One-Hot编码)中的信息。这种设计旨在结合两种方法的优势,有效整合多模态特征,从而提升抗菌肽识别的准确性和效率。
研究采用了多种编码方法来从多角度提取序列信息。ESM-2模型为每个氨基酸生成一个1280维的向量,形成L×1280维的特征矩阵(L为序列长度)。此外,还将One-Hot(20维)、BLOSUM62(20维)和Z-scale(5维)编码融合,构建了一个L×45维的多维特征矩阵。这种多视角的特征表示为模型提供了丰富的序列信息。
该模块采用监督对比学习策略来训练一个MLP编码器,以增强预训练特征的判别能力。其核心是学习一个度量空间,使得同类样本(同为AMP或同为非AMP)的嵌入彼此靠近,而异类样本的嵌入相互远离。通过定义对比损失函数,该模块显式地学习类别级别的判别性表示,而非依赖于随机的序列扰动。
GCNN整合了CNN的并行卷积操作和门控线性单元(GLU)的门控机制,为序列建模提供了一个高效而强大的框架。与研究中使用的LSTM相比,GCNN在保持甚至提升性能的同时,具有更高的计算效率。本研究设计了一个三层GCNN模块,每层包含三个并行的1D卷积分支(核大小分别为3、5、7),以实现多尺度感受野学习。通过GLU机制和残差连接,该模块能够有效捕获肽序列的上下文信息,同时缓解梯度消失问题,增强训练稳定性。
为了有效融合两个模块学习到的特征,研究首先对每个模块提取的序列特征分别应用全局最大池化以降低特征维度,随后采用线性融合机制结合池化后的特征。最终的预测分数通过Sigmoid函数映射到[0,1]区间,并使用交叉熵损失函数来评估模型的准确性。
研究人员在AMPlify和DAMP两个独立测试集上评估了CG-AMP的性能,并与当前最先进的模型(包括TriStack、AMPlify、AMPscanner Vr2(重新训练)和PepNet)进行了比较。实验结果表明,CG-AMP在多个关键评估指标上均显著优于其他对比模型。具体而言,在AMPlify测试集上,CG-AMP的准确率(Accuracy)达到0.9497,F1分数(F1-score)为0.9508,马修斯相关系数(MCC)为0.8994。在DAMP测试集上,其准确率为0.9403,F1分数为0.9392,MCC为0.8812。此外,接收者操作特征曲线(ROC曲线)和精确率-召回率曲线(PR曲线)的可视化分析也进一步证实了CG-AMP在抗菌肽识别任务中具有更高的分类能力和稳定性。
为了评估CG-AMP各个组件的贡献,研究进行了一系列消融实验。实验设计了四个变体模型:CG-AMP-M(仅保留预训练特征模块)、CG-AMP-P(仅保留多维特征模块)、CG-AMP-MC(在CG-AMP-M基础上去除对比学习模块)和CG-AMP-PG(在CG-AMP-P基础上去除GCNN模块)。实验结果表明,无论是移除预训练特征模块还是多维特征模块,模型性能都会出现明显下降,这验证了双模块设计的有效性。同时,对比学习模块和GCNN模块的移除也导致了性能的显著降低,证明了它们在特征提取中的关键作用。此外,计算效率对比显示,GCNN模块的推理时间和训练时间均远低于LSTM模块,且参数量更少,凸显了其高效性。
研究还比较了三种不同的特征融合方法:线性融合、拼接融合和基于注意力的融合。实验结果发现,线性融合策略取得了最佳性能。这表明,经过对比学习优化后的特征已经具备了很强的判别性和互补性,简单的线性加权足以实现有效的特征整合,而更复杂的注意力机制可能会因引入过多参数而导致过拟合。
通过t-SNE降维技术对CG-AMP模型学习到的特征表示进行可视化分析。结果显示,与传统的多维特征相比,预训练特征在类别间表现出更明显的分离性。经过双模块特征融合后,模型学习到的特征表示其类内聚集度和类间分离度都得到了显著增强,进一步证实了CG-AMP能够学习到有效区分抗菌肽与非抗菌肽的特征表示。
为了验证所提出的CL(对比学习)+GCNN双模块架构的有效性,研究将其与六种其他双模块配置(如CL+BiLSTM、CL+GCN、CL+Transformer等)进行了比较。在所有配置中,CL+GCNN架构在多个评估指标上 consistently 表现最优,证明了其在抗菌肽识别任务中的卓越有效性。
为了进一步评估模型的泛化能力,研究进行了两项独立的评估。首先,为了排除ESM-2预训练数据(UniProt)与测试集可能存在的重叠风险,研究人员从AMPlify和DAMP测试集中移除了与UniRef50(ESM-2的训练数据集)重叠的序列,形成了一个干净的独立测试集。在该测试集上的重新评估表明,模型性能保持稳定甚至略有提升,证明了其在完全未见过的序列上具有稳健的泛化能力。其次,在一个从未在训练或验证中使用过的、来自iAMP-bert评估数据集的独立测试集上,CG-AMP模型取得了0.75的准确率,显著高于第二名TriStack模型的0.62,进一步确认了其强大的判别能力和跨数据集的泛化性能。
本研究提出的CG-AMP框架,通过整合多源序列特征(预训练语义特征和包含进化信息与理化性质的多维手工特征)并采用对比学习与门控卷积神经网络(GCNN)双模块特征提取策略,成功实现了对抗菌肽(AMP)的高精度识别。该模型的核心优势在于其能够从多个视角充分挖掘肽序列的丰富信息,并通过高效的融合机制实现特征互补。广泛的实验验证表明,CG-AMP在多个基准测试集上均显著优于现有主流方法,展现出优异的准确性、稳定性及强大的泛化能力。
该研究的成功主要归因于两个关键因素:一是全面而互补的特征工程,涵盖了序列的上下文信息、进化历史和物理化学特性;二是创新的双模块学习架构,使得语义特征和理化特征能够深度融合,平衡了全局与局部依赖关系建模,从而生成了更具信息量、更稳定且更通用的肽序列表示。线性融合策略被证明是平衡性能与复杂性的有效选择。
尽管模型性能卓越,研究作者也指出了未来可能的优化方向,例如通过更大规模的训练进一步优化超参数,探索集成其他预训练模型(如ProtT5)的特征以获取更全面的序列表示,以及在未来高精度肽结构预测工具成熟时,尝试整合肽的二级和三级结构信息(如α螺旋含量、疏水表面积、接触图特征等)来增强模型对空间构象和关键功能位点的表征能力。此外,将CG-AMP框架微调或应用于其他功能的肽(如抗病毒肽AVPs、抗癌肽ACPs)的预测任务,以系统评估其跨任务适应性和可迁移性,也是未来的重要研究方向。
综上所述,CG-AMP作为一个专注于抗菌肽识别的高性能计算工具,其灵活的架构使其具有良好的扩展潜力,不仅为加速新型抗菌肽的发现提供了强有力的技术支持,也为解决序列驱动的生物分类任务提供了可借鉴的范式。随着人工智能技术的持续发展,这类融合多源信息和先进深度学习架构的模型,有望在生物医学研究领域发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号