
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AmpHGT:基于多视角异构图Transformer的非经典氨基酸抗菌肽预测新方法
【字体: 大 中 小 】 时间:2025年07月02日 来源:BMC Biology 4.4
编辑推荐:
本研究针对传统抗菌肽(AMP)预测模型无法有效处理非经典氨基酸(NCAAs)的局限,开发了基于异构图Transformer的深度学习模型AmpHGT。该模型通过原子、片段、残基等多视角表征,在经典氨基酸(CAA)基准测试中达到SOTA水平,首次实现含NCAAs肽类的高效分类,为新型抗生素设计提供了重要筛选工具。
抗生素耐药性危机正成为全球健康重大威胁,仅2019年就有约495万人死于耐药菌感染。传统"Waksman平台"的抗生素发现模式日渐式微,而抗菌肽(AMP)因其独特膜破坏机制和低耐药性备受关注。然而,现有AMP预测模型大多局限于20种经典氨基酸(CAA),无法处理日益重要的非经典氨基酸(NCAAs)——这类修饰氨基酸能显著提升肽类稳定性和抗菌活性,在天然抗生素如万古霉素(Vancomycin)、泰克索巴汀(Teixobactin)中广泛存在。更棘手的是,当前预测方法多依赖预定义特征描述符或单字母编码系统,既不能捕捉NCAA的化学结构特性,也难以适应α、β、γ等不同骨架构型的肽类。
针对这一技术瓶颈,四川农业大学的研究团队在《BMC Biology》发表了创新性研究成果。他们开发的AmpHGT模型,首次将多视角异构图Transformer应用于AMP预测领域。该研究通过整合ESM2蛋白质语言模型的序列嵌入与分子图结构表征,构建了包含原子、片段、残基和连接关系的四级异构图网络,特别是提出的"侧链均分片段化"(FraSCESS)策略,有效解决了NCAA的化学结构表示难题。研究证实,AmpHGT在经典氨基酸测试集(XUAMP)上的准确率达73.65%,与当前最佳模型TP-LMMSG相当;更重要的是,在含NCAA的独立测试集上,其分类性能比ESM2零样本预测提升10%,为含修饰氨基酸的抗菌肽设计提供了首个可靠的计算筛选工具。
关键技术方法包括:1)从DBAASP和UniProt数据库构建含7532条NCAA肽序列的数据集;2)开发FraSCESS算法实现肽分子的多级图结构表征;3)整合ESM2(esm2_t33_650M_UR50D)的预训练嵌入;4)采用改进的PharmHGT编码器进行多视角消息传递;5)通过GRU图读出机制融合序列与结构特征。
【性能基准测试】在经典氨基酸基准测试中,AmpHGT在XUAMP测试集上达到0.7365准确率和0.5047 MCC,与TP-LMMSG相当;在AMPDiscover测试集上以91.73%准确率位列第二。特别值得注意的是,模型对含修饰氨基酸肽类的分类表现出色:在零样本设置下,对NCAA独立测试集的预测准确率达89.03%,较ESM2提升0.8%;经过联合训练后,性能进一步提升至92.85%,显著优于ESM2的83.59%。
【NCAA数据集分析】研究揭示了训练数据的关键特征:阳性序列中二氨基丁酸(Dab)、鸟氨酸(Orn)和正亮氨酸(Nle)占NCAA总数的27.1%,符合抗菌肽工程常用策略;而阴性序列中4-天冬氨酰磷酸(4-Appp)单独占比达58.6%。长度分析显示阳性序列平均仅13个残基,远短于阴性序列的47个,但研究者创新性地采用联合训练策略缓解了长度偏差的影响。
【消融实验】通过系统消融分析证实:1)ESM2预训练模型的引入使准确率提升5%;2)GRU读出机制优于均值/最大值池化;3)残基级子图的加入贡献了2.3%性能增益。最佳配置(AmpHGT_GRU)通过双线性融合将图表示与
研究结论指出,AmpHGT的创新性主要体现在三个方面:首先,突破了传统方法对NCAA的表征限制,支持600余种修饰氨基酸的处理;其次,通过异构图建模实现了从原子到残基的多尺度特征学习;最后,轻量级架构避免了3D结构预测的计算开销。在讨论部分,作者坦承当前模型对环肽等复杂结构的处理仍存局限,但强调其已为含NCAA的抗菌肽发现建立了可靠框架。这项工作不仅为抗生素耐药危机提供了新的计算解决方案,更为重要的是,开创了将异构图神经网络应用于修饰肽类研究的先河,为后续开发支持环化修饰、二硫键等复杂结构的预测模型奠定了基础。
生物通微信公众号
知名企业招聘