基于知识感知提示扩散模型(KPPepGen)的病原体特异性抗菌肽可控生成新策略

【字体: 时间:2025年09月17日 来源:Advanced Science 14.1

编辑推荐:

  本文介绍了一种创新性的知识感知提示扩散模型KPPepGen,该模型通过整合基因本体(GO)和病原体知识图谱的预训练信息,实现了针对56种不同病原体的抗菌肽(AMPs)的可控生成。研究显示,该方法在训练数据有限的病原体上性能提升超过10%,生成的肽段兼具高新颖性、优越的理化性质和强结合亲和力。湿实验验证了9种新型肽对大肠杆菌(E. coli)和金黄色葡萄球菌(S. aureus)具有显著抗菌活性和低细胞毒性,为针对耐药病原体的下一代抗菌药物设计提供了强大工具。

  

摘要

抗菌肽(AMPs)作为短链氨基酸序列,展现出广谱抗菌活性和低细胞毒性,是应对抗生素耐药性的重要候选药物。然而,针对特定病原体的AMP设计仍面临数据稀缺和模型泛化能力不足的挑战。本研究提出KPPepGen——一个基于知识感知提示扩散模型的可控生成框架,通过整合基因本体(GO)和病原体知识图谱中的预训练信息,生成具有高度生物学合理性的病原体特异性肽段。

1 引言

抗生素滥用导致细菌耐药性迅速进化,传统AMP发现方法如噬菌体展示技术成本高、周期长。人工智能生成模型虽在肽段设计中取得进展,但多数方法局限于“一对一”生成策略,无法高效应对病原体多样性。目前已知AMP仅覆盖不到8%的已测序病原体,且数据分布极不均衡。KPPepGen利用知识图谱预训练获得的病原体嵌入作为提示,引导扩散模型实现“一对多”的病原体特异性肽段生成,避免了重复训练和再评估的开销。

2 结果

2.1 整体框架

KPPepGen框架包含五个核心模块:数据景观展示、GO/病原体知识图谱构建、知识感知预训练、提示引导的肽段扩散生成以及肽段优化扩展。知识图谱中的类节点和肽段节点通过文本编码器和序列编码器进行表征,通过对比学习优化实体表示。病原体提示嵌入与病原体边际分布结合,在去噪过程中实现条件控制。

2.2 性能优势

与14种基线方法相比,KPPepGen在56种病原体上生成的肽段在序列相似性、不稳定性和跨膜倾向性(TM_tend)指标上均取得最优结果,相比次优方法ProGen分别提升14.8%、6.7%和16.0%。对训练样本最少的10种病原体,提升幅度进一步扩大至15.6%、7.4%和17.5%。理化性质分析表明,KPPepGen生成的肽段在所有八项指标上与天然AMPs分布无显著差异,而基线方法普遍出现偏离。

分子对接结果显示,KPPepGen生成的肽段在22种具有明确靶点的病原体上对通用靶点和特异性靶点的结合得分分别比ProGen高8.3%和10.4%。病原体特异性肽段相比非特异性肽段的对接得分平均提高12.8±2.2%,且在低资源病原体上仍保持11%以上的优势。

2.3 提示机制解析

56种病原体提示嵌入的热图聚类分析显示,其可清晰分为革兰氏阳性菌、革兰氏阴性菌和真菌三大类,与微生物分类学高度一致。氨基酸频率分析表明,提示引导生成的肽段与训练数据分布误差仅为12%,而无提示引导时误差达32%。在肽段-病原体分类任务中,知识感知提示相比病原体平均提示和功能提示在Top-1准确率上分别提升20.1%和17.6%,在低资源病原体上优势更为显著(26.5%和24.1%)。

2.4 生物学模式捕捉

通过注意力权重大小识别病原体相关残基位点,以大肠杆菌为例,从训练和生成肽段中分别提取38和31个序列 motif。Top-5 motif对中的三个与高注意力位点高度重合,且保守氨基酸(如带正电的精氨酸R、中性天冬酰胺N和极性甘氨酸G)具有明确的生物学功能。二级结构分析显示,生成肽段呈现不同的螺旋度分布,部分肽段采用典型的螺旋构象,疏水和极性残基交替聚集,赋予其构象灵活性。对接分析表明,这类肽段与靶标形成多个氢键,结合能低至-7.6 kcal mol-1

2.5 肽段优化应用

通过整合提示引导的部分扩散与多位点组合突变,KPPepGen成功对天然AMP(Magainin 2和DJK-5)和人源AMP(LL-37和DCD-1L)进行优化。在100步扩散时,恢复分数稳定在0.3左右。KPPepGen在四种AMP上的优化成功率最高(Magainin 2达44.3%),平均比ESM-based方法高7.6%。随突变位点增加,KPPepGen优势更加明显:双位点和三位点突变分别提升5%和9%。最佳突变体MT9与大肠杆菌通用靶点(1QFG)和特异性靶点(3MZE)的结合能分别为-8.5 kcal mol-1和-24.2 kcal mol-1,并形成5个和4个氢键。

2.6 湿实验验证

针对大肠杆菌和金黄色葡萄球菌,通过虚拟筛选从2000个生成肽段中各选出5个候选肽。9种肽段满足抗菌活性阈值(MIC ≤ 128 μg mL-1),成功率达90%。其中Pep3(16 μg mL-1)、Pep5(4 μg mL-1)对大肠杆菌,Pep10(16 μg mL-1)对金黄色葡萄球菌表现出高强度活性。特异性测试显示,针对大肠杆菌设计的5种肽段对金黄色葡萄球菌活性低(MIC ≥ 256 μg mL-1)。细胞毒性实验表明,9种肽段完全无毒(CC50 ≥ 512 μg mL-1),仅Pep10具轻微毒性(CC50 ≥ 256 μg mL-1)。

3 结论

KPPepGen通过知识感知提示机制实现了多病原体特异性AMP的可控生成,在性能、特异性和生物学合理性方面显著优于现有方法。其扩展应用在肽段优化方面展现出强大潜力,湿实验验证了生成肽段的抗菌效能和安全性。该框架为针对耐药病原体的抗菌药物开发提供了新范式。

4 实验方法

研究整合UniProt数据库和7个AMP数据库(APD3、CAMP、DBAMP、DRAMP、SATPdb、YADAMP、LAMP),构建包含7266个GO类别和56种病原体的知识图谱。使用PubMedBERT编码类节点文本,Transformer架构编码肽段序列。通过TransE评分函数进行对比预训练,提取病原体嵌入作为提示。扩散过程采用去噪扩散隐式模型(DDIM),结合分类器自由引导(CFG)策略。评估指标包括序列相似性、不稳定指数、TM_tend、理化性质、分子对接得分(ZDOCK、AutoDock Vina)和结合自由能(MM-PBSA)。湿实验采用Fmoc固相肽合成(SPPS)法制备肽段,通过微量肉汤稀释法测定MIC,CCK-8法检测细胞毒性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号