基于大语言模型的抗菌肽设计新突破:AMP-Designer 助力攻克耐药难题

【字体: 时间:2025年03月06日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  研究人员针对细菌耐药问题开展 AMP 设计研究,开发 AMP-Designer 框架,成果显著,意义重大。

  # 基于大语言模型的抗菌肽设计新突破:AMP-Designer 助力攻克耐药难题
在微观的细菌世界里,一场无声的战争正在上演,而人类正面临着前所未有的挑战 —— 细菌耐药性问题。细菌耐药性,如同一个不断膨胀的 “恶魔”,严重威胁着全球人类的健康。据统计,2019 年全球近 495 万人的死亡与细菌耐药性相关,其中 127 万人直接因此丧生,并且预测到 2050 年,这一数字将飙升至每年 1000 万。革兰氏阴性菌更是其中的 “顽固分子”,它们对大多数常用抗生素产生了耐药性,自 1968 年喹诺酮类药物问世以来,再也没有新的有效对抗革兰氏阴性菌的抗生素通过临床阶段。
在这场与细菌的 “战斗” 中,抗菌肽(Antimicrobial Peptides,AMPs)成为了人类寄予厚望的 “新武器”。AMPs 是由各种生物体自然产生的,长度通常在 10 - 50 个氨基酸之间,能够对抗入侵的微生物。它们结构和功能多样,抗菌效果良好,而且不易使细菌产生耐药性,被视为传统小分子抗生素的潜在替代品。然而,AMPs 也存在一些 “短板”,比如相对较低的抗菌活性、不确定的毒性以及在生产和运输过程中容易失活等问题,这些都阻碍了它们的广泛应用。

为了让 AMPs 更好地发挥作用,开发具有增强活性、降低毒性和提高抗水解性的 AMP 候选物成为了当前研究的重点。同时,利用计算机辅助方法加速 AMP 的设计也成为了热门方向。传统的 AMP 设计方法,如优化现有 AMP 或使用预测模型筛选肽空间,面临着肽序列空间巨大(估计长达 32 个残基的肽序列空间约有 4.5×1041种肽)、筛选困难等问题。虽然基于深度学习的新方法不断涌现,如基于循环神经网络(RNNs)、生成对抗网络(GANs)和变分自编码器(VAEs)等,但这些方法在设计具有多种理想特性的 AMPs 时,仍面临着数据标注偏差、计算成本高和过拟合等挑战。

在这样的背景下,来自国内研究机构的研究人员开展了一项极具意义的研究。他们开发了一种名为 AMP-Designer 的基于大语言模型(Large Language Models,LLMs)的方法,为 AMP 的设计带来了新的曙光。该研究成果发表在《SCIENCE ADVANCES》上,为解决细菌耐药性问题提供了新的思路和方法。

研究人员在开展研究时,运用了多个关键技术方法。首先,基于 GPT 构建了 AMP-GPT 模型,通过在 UniProt 数据库中筛选出的大量肽段数据进行无监督训练,让模型学习肽的特征。接着,采用对比提示调整(contrastive prompt tuning)技术,在保持 AMP-GPT 参数不变的情况下,对模型进行微调,使其能够生成具有特定属性的肽序列。然后,利用知识蒸馏(knowledge distillation)将 AMP-Prompt 模型压缩为结构更简单的 AMP-Distillation 模型,降低计算成本。最后,运用强化学习(RL)算法,基于多个属性对模型进行优化,筛选出具有高活性等理想特性的 AMP 候选物。

研究结果


  1. AMP-Designer 的整体流程:从 UniProt 数据库收集了 630,683 条长度不超过 32 的肽段,用于训练 AMP-GPT 模型。随后,使用 9896 个阳性样本和 2403 个阴性样本进行对比提示调整,得到 AMP-Prompt 模型。由于 AMP-Prompt 模型存在一定局限性,研究人员进一步通过知识蒸馏得到 AMP-Distillation 模型,并利用 RL 对其进行优化,以筛选出最佳的 AMP 候选物。
  2. 物理化学性质分析:通过分析随机选取的 2000 条肽序列的物理化学性质,发现 AMP-GPT 模型有效地学习了 UniProt 训练数据集中肽的理化特征。对比提示学习后,生成的肽序列理化性质更接近真实的 AMPs,且 top-k 采样比传统温度采样生成的肽更符合真实 AMPs 的特征,蒸馏模型也成功学习了教师模型的概率分布。
  3. 活性分析:使用 CAMP、AMP Scanner 和 Macrel 三种不同的 AMP 分类器评估生成的肽。结果显示,基于提示的模型性能显著提升,尤其是 Prompt-TopK 生成的肽生物活性分布与真实 AMPs 相似,且该方法被预测为活性肽的概率比 CLaSS 和 CFPS 更高,高达 83.4%。
  4. 多样性和新颖性分析:与条件标记(CT)和全模型微调(FT)两种基线方法相比,AMP-Designer 的提示式方法在生成肽的有效性、唯一性和新颖性方面表现更优。通过序列比对计算匹配分数发现,该方法生成的肽与真实 AMPs 相似度更低,内部相似性也更低,表明生成的肽更具多样性和新颖性。
  5. 设计针对革兰氏阴性菌的高活性肽:利用 RL 对模型进行进一步优化,奖励函数包含分类概率、对三种细菌菌株的 MIC、序列长度、记忆相似性和电荷等五个组件。经过 RL 优化,AMP 预测分数提高,对大肠杆菌和铜绿假单胞菌的预测 MIC 降低。通过筛选,最终确定了 20 个候选 AMP。
  6. 领先 AMP 的体外活性:对 20 个预测的 AMP 进行化学合成和验证,18 个成功合成。这些 AMP 对至少一种菌株表现出显著的抗菌活性,且对革兰氏阴性菌的效果优于革兰氏阳性菌。其中,AI18、KW13 等 5 种 AMP 对多种耐药革兰氏阴性菌也有显著活性。此外,KW13 和 AI18 的溶血毒性可忽略不计,血浆稳定性高,不易诱导大肠杆菌产生耐药性,且能显著破坏大肠杆菌细胞膜。
  7. KW13 和 AI18 的体内活性:构建肺炎克雷伯菌感染的小鼠肺炎模型,测试 KW13 和 AI18 的体内疗效。结果显示,这两种 AMP 能显著降低细菌载量,治疗效果与阳性对照 AMP 吲哚杀菌素相当,且对宿主无明显不良影响。
  8. 针对痤疮丙酸杆菌的少样本 AMP 设计:针对痤疮丙酸杆菌开展少样本 AMP 设计,由于其相关标记数据稀缺,研究人员利用抗菌活性相关性,选择了 5 个候选 AMP 进行体外实验验证。结果显示,其中 3 个对痤疮丙酸杆菌表现出强效活性,FI19 的 MIC 值低至 2.0μg/ml。

研究结论与讨论


AMP-Designer 框架为 AMP 的设计提供了一种高效的解决方案。通过结合大语言模型、提示调整、知识蒸馏和强化学习等技术,该框架能够快速设计出具有多种理想特性的 AMPs。在体外和体内实验中,设计的 AMPs 表现出良好的抗菌活性、低毒性和高稳定性,为应对全球日益严重的细菌耐药性问题提供了有力的支持。此外,AMP-Designer 在少样本设计任务中也表现出色,能够在标记数据稀缺的情况下设计出有效的 AMPs。这一研究成果不仅为抗菌肽的开发开辟了新的道路,也为其他基于肽的药物设计提供了借鉴,有望推动生命科学和健康医学领域的进一步发展。未来,随着研究的深入,AMP-Designer 框架有望不断优化,为解决更多的医学难题贡献力量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号