基于Transformer和多特征融合的深度学习框架BPFun实现多功能生物活性肽精准预测

【字体: 时间:2025年07月22日 来源:BMC Bioinformatics 2.9

编辑推荐:

  推荐:针对传统实验方法耗时费力且现有计算方法难以准确预测多功能生物活性肽的问题,Changzhou University团队开发了深度学习框架BPFun。该研究通过整合序列特征、AAindex1理化特性及ProtT5/ESM-2预训练模型,结合数据增强策略,在七类功能肽预测中取得0.6577准确率,为肽类药物开发提供新工具。

  

在生命科学领域,生物活性肽犹如一把"分子瑞士军刀",具有抗菌、抗癌、降压等多种生理功能。然而这些长度不足32个氨基酸的小分子存在"一肽多效"现象——例如某些抗菌肽(AMP)同时具有抗癌(ACP)功能,传统实验方法鉴定耗时长达数月且成本高昂。更棘手的是,现有计算方法如MLBP和MPMABP仅能预测5类功能,对新增功能类别的识别准确率骤降20%,且无法有效解决数据不平衡问题。

针对这些挑战,常州大学计算机科学与人工智能学院的研究团队在《BMC Bioinformatics》发表了突破性研究。他们开发的BPFun框架创新性地整合五种特征表征:序列数字化编码、one-hot向量、AAindex1理化参数,以及ProtT5-XL-U50和ESM-2预训练模型提取的深度特征。通过多尺度CNN和Bi-LSTM网络提取高阶特征后,引入多头自注意力机制捕捉功能关联性,最终在七类功能肽预测中实现0.6577的准确率,较现有最优方法提升3.7%。

关键技术包括:1) 从Google Scholar等平台收集7类人类相关生物活性肽共6,567条序列,经CD-HIT去冗余;2) 采用掩码技术进行数据增强,解决AAP等小样本类别(仅134条)的数据失衡;3) 构建融合Transformer编码器和残差连接的混合网络架构;4) 使用UMAP可视化验证多特征融合的有效性。

【特征比较】实验显示:截取前32个氨基酸可平衡时间成本与准确率,处理速度较256长度提升5倍;ESM-2提取的特征对AMP/ACP预测贡献度最高,AAindex1编码则显著提升AOP识别性能。

【模型优化】五折交叉验证表明:结合多头自注意力机制的BPFun在SEN(0.6725)和MCC(0.6369)指标上均优于对比模型,对ADP等难识别类别的预测特异性保持在0.9527。

【案例验证】在新型肽段测试中,BPFun准确预测出"ACYCRIGACVSGERLTGACGLNGRIYRLCCR"的双功能(AMP/ACP),而MLBP误判为单功能。但对短链AOP的识别仍有提升空间。

该研究的核心突破在于:首次实现七类功能肽的精准预测,通过特征融合使模型具备"举一反三"能力——仅需2000条训练样本即可达到传统方法5000条数据的识别效果。值得注意的是,团队开源的预训练模型适配器,允许研究者灵活添加新功能类别而不必重构整个网络。未来通过引入更多元的结构特征和动态掩码策略,有望进一步攻克10+功能类别的预测难题,为个性化肽类药物设计提供智能导航。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号