基于分类器驱动生成对抗网络的抗菌肽优化设计新策略
《Briefings in Bioinformatics》:Classifier-driven generative adversarial networks for enhanced antimicrobial peptide design
【字体:
大
中
小
】
时间:2025年10月26日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对传统反馈生成对抗网络(FBGAN)在抗菌肽(AMP)设计中存在的选择偏差和多样性受限问题,提出了一种新型分类器驱动生成对抗网络(cdGAN)框架。该框架通过将多任务分类器预测直接整合到损失函数中,实现了抗菌活性和α-螺旋结构的同步优化。实验表明cdGAN在保持序列多样性的同时,生成的抗菌肽经CAMPR4平台验证具有优异抗菌活性,且毒性显著降低,为抗菌肽设计提供了创新解决方案。
在抗生素耐药性危机日益严峻的今天,抗菌肽(AMP)作为传统抗生素的有力替代品备受关注。这些天然存在的短肽分子具有广谱抗菌活性,其通过破坏细菌细胞膜发挥作用的机制大大降低了耐药性发展风险。然而,将抗菌肽成功转化为临床治疗药物面临重大挑战:许多在实验室表现出优异抗菌活性的肽类在体内应用中因对宿主细胞的毒性作用(特别是溶血活性)而失败。这种疗效与安全性的平衡成为抗菌肽设计的核心难题。
传统计算方法如反馈生成对抗网络(FBGAN)在抗菌肽生成方面展现出潜力,但其基于预设阈值的序列选择机制存在固有缺陷。这种"筛选-替换"策略可能导致模型过度拟合已知模式,限制新肽序列的多样性,同时分类器的误判可能引入噪声数据。更为关键的是,抗菌肽的功能与其二级结构密切相关,特别是α-螺旋结构能增强其两亲性,促进与细菌膜的相互作用,但现有方法难以同步优化序列的抗菌活性和结构特征。
针对这些挑战,Michaela Areti Zervou等研究人员在《Briefings in Bioinformatics》上发表了一项创新研究,提出了分类器驱动生成对抗网络(cdGAN)框架。这一新型生成模型的核心突破在于将分类器指导直接嵌入到生成过程的损失函数中,实现了端到端的自适应学习,避免了显式数据修改带来的偏差。
研究团队采用了几项关键技术方法:首先构建了包含5200个蛋白质序列的数据集(2600个AMP来自APD3数据库,2600个非AMP来自UniProt),并通过MMseqs2聚类确保多样性;其次开发了基于ESM2蛋白质语言模型的多任务分类器,可同步预测抗菌活性和α-螺旋结构;最后采用Wasserstein GAN with Gradient Penalty (WGAN-GP)框架保证训练稳定性,其中生成器、判别器和分类器协同工作,通过将分类概率乘积融入损失函数实现多目标优化。
Classifier performance analysis
研究团队开发的MLP-ESM2多任务分类器在抗菌肽识别和α-螺旋结构预测方面表现卓越。单任务分类中,该模型在准确率(ACC)、曲线下面积(AUC)和F1分数上均显著优于基于k-mers的Transformer模型,特别是在α-螺旋预测任务中优势明显。多任务设置下,通过调整损失权重λ1和λ2,模型在帕累托前沿确定的最优参数(λ1=0.4)下实现了两个任务的平衡优化,为后续生成任务提供了可靠评估基础。
Comparison of cdGAN with other guided-GANs
在生成模型对比中,cdGAN在序列多样性和功能相关性方面展现出独特优势。编辑距离分析显示cdGAN生成的序列分布与真实抗菌肽最为接近,而辅助分类器生成对抗网络(ACGAN)则表现出明显的多样性不足。序列相似性分析进一步证实cdGAN的序列间相似度仅为27.4%,显著低于ACGAN的40.3%,表明其能生成更具创新性的肽序列。
功能评估通过CAMPR4平台的三个分类器(随机森林RF、支持向量机SVM和人工神经网络ANN)进行。cdGAN在RF和SVM分类器中的表现与ACGAN相当,但在ANN分类器中优势明显,说明其生成序列的特征学习能力更强。特别是在严格阈值(P(AMP)>0.8)下,cdGAN保持稳定性能,而其他模型均出现明显下降。
Comparison with state-of-the-art AMP design models
与前沿抗菌肽设计模型(AMPGAN、HydrAMP和RLGen)的对比中,cdGAN在功能预测方面全面领先。虽然在序列多样性上略逊于HydrAMP(相似度27.4% vs 21.7%),但cdGAN在三个分类器上的平均预测准确率达到71.1%,显著优于其他模型。更重要的是,在需要同时满足高抗菌活性和高α-螺旋含量的严格条件下,cdGAN生成的序列数量是单任务版本的两倍,体现了多任务学习的优势。
Physicochemical properties and amino acid composition
理化性质分析揭示了cdGAN生成序列的生物学合理性。通过比较电荷、等电点(pI)、芳香度和疏水性等关键特征,cdGAN生成的抗菌肽在电荷和pI分布上与真实数据最为接近(p≤0.05和p≤0.001),虽然在某些指标上存在统计学差异,但整体偏离程度最小,表明其能较好地捕捉天然抗菌肽的物理化学特征。
Multi-task cdGAN performance
多任务cdGAN在双重目标优化方面表现出色。在要求同时满足高抗菌活性(P(AMP)>0.95)和高α-螺旋含量(P(helix)>0.95)的严格条件下,多任务cdGAN产生了21个合格序列,而单任务版本仅产生10个。安全性评估结果更为引人注目:cdGAN生成的序列中95.2%被ToxinPred 3.0预测为无毒,23.8%被HemoPI预测为非溶血性,同时满足两种安全要求的比例达到19.0%,显著优于AMPGAN的8.7%。
结构验证通过AlphaFold3进行,结果显示cdGAN生成肽的每残基局部距离差异测试(pLDDT)分数高达80-95,表明预测结构的高可信度。虽然预测模板建模(pTM)分数(0.27-0.39)低于通常的高置信阈值,但这符合新设计序列缺乏已知模板的特点,仍支持这些肽可能采用连贯的蛋白质样结构。
讨论部分强调cdGAN在多维度平衡中的优势。与AMPGAN偏向膜靶向功能而牺牲多样性、RLGen属性范围过于宽泛相比,cdGAN在抗菌活性、结构相关性、理化保真度和安全性之间实现了最佳平衡。其多任务学习框架通过同步优化多个目标,成功降低了传统抗菌肽设计中的权衡妥协。
这项研究的核心贡献在于提出了一个灵活、自适应的抗菌肽设计框架,通过将分类器指导内生于生成过程,减少了人为干预带来的偏差。cdGAN不仅能生成多样化的抗菌肽序列,还能通过多任务优化确保这些序列同时满足功能性和安全性要求。该方法为应对抗生素耐药性挑战提供了新的计算工具,有望加速新型抗菌肽的发现和开发进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号