基于生成式蛋白质与多窗口卷积神经网络的细菌外排蛋白超家族精准预测模型GenEfflux

【字体: 时间:2025年07月18日 来源:Computational Biology and Chemistry 2.6

编辑推荐:

  研究人员针对细菌外排蛋白(Efflux)序列变异大、功能注释不足导致的分类难题,创新性地结合ProtGPT2生成序列与多窗口卷积神经网络(mCNN),开发了GenEfflux框架。该模型通过PSSM特征提取和多尺度进化模式捕捉,显著提升五大外排家族(ABC/MFS/MATE/RND/SMR)的分类性能,其中Class B灵敏度达0.9999,MCC提升至0.9327。研究为抗生素耐药性机制解析提供了新工具。

  

细菌对抗生素的耐药性已成为全球公共卫生危机,而外排泵(Efflux pumps)作为细菌的“分子保镖”,通过主动排出抗生素等有害物质,成为耐药性产生的重要机制。这些外排蛋白分为五大超家族:ATP驱动的ABC转运体、主要易化超家族(MFS)、多药和毒性化合物外排家族(MATE)、耐药结节化分化家族(RND)以及小多重耐药家族(SMR)。然而,这些家族间序列差异巨大,且现有数据库注释不完整,传统基于序列比对的方法(如HHblits)往往难以准确分类。更棘手的是,许多外排蛋白存在功能冗余和低同源性,就像用不同方言表达相同指令,使得计算机模型“听力”受限。

为破解这一难题,研究人员开发了名为GenEfflux的创新框架。该研究首次将生成式人工智能ProtGPT2与多窗口卷积神经网络(mCNN)相结合,通过“虚拟扩增”外排蛋白序列库,并采用多尺度特征提取策略,实现了对低同源序列的高精度分类。研究论文发表在《Computational Biology and Chemistry》上,展现出人工智能在生物医学前沿领域的强大潜力。

研究采用五大关键技术:从转运体分类数据库(TCDB)获取基准数据集;利用ProtGPT2生成具有生物学合理性的外排蛋白变体;通过PSI-BLAST进行同源序列聚类;构建融合PSSM进化特征的多窗口CNN架构(含3×3/5×5/7×7并行卷积核);采用5折交叉验证评估模型性能。

结果部分揭示多项突破性发现

  1. 性能飞跃:在Class B外排蛋白分类中,灵敏度从基线模型deepEfflux的0.5385飙升至0.9999,马修斯相关系数(MCC)从0.4397提升至0.9327。Class C的准确率也达到0.9668,证明生成序列有效弥补了数据稀缺性。
  2. 多窗口优势:相比单窗口CNN,多窗口架构使MATE家族识别准确率提升12.7%,证实不同尺寸卷积核能协同捕捉局部模体(如跨膜螺旋)和全局进化特征。
  3. 进化特征解析:UMAP降维显示,ProtGPT2生成序列与天然外排蛋白在潜在空间高度重叠,Grad-CAM热图揭示模型重点关注跨膜结构域和ATP结合位点等关键区域。

讨论部分指出:该研究开创性地验证了生成式AI在蛋白质功能预测中的价值——ProtGPT2产生的“虚拟蛋白质”不仅保留天然序列的折叠原则,还能增强机器学习模型的泛化能力。值得注意的是,模型对RND家族(含AcrB等临床重要泵)的分类精度达0.9412,这对理解革兰氏阴性菌耐药机制尤为重要。研究还发现,Na+/H+梯度依赖型MATE转运体的生成序列含有保守的Asp156残基,这与实验证实的质子耦合转运机制相符。

尽管存在缺乏湿实验验证的局限(如未用AlphaFold预测生成序列的结构),但GenEfflux框架为抗生素耐药研究提供了新范式。未来若结合冷冻电镜或微量热泳动(MST)等技术,可进一步验证生成序列的生化功能。这项研究不仅推动计算生物学方法学发展,更为设计外排泵抑制剂(EPIs)——这类被誉为“抗生素增效剂”的新型药物,奠定了智能化的理论基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号