多特征融合的基因预测与功能肽识别:基于深度学习的GP2FI框架在抗癌肽和抗菌肽发现中的创新应用

《Frontiers in Microbiology》:Multi-feature fusion for gene prediction and functional peptide identification

【字体: 时间:2026年02月06日 来源:Frontiers in Microbiology 4.5

编辑推荐:

  本文提出GP2FI深度学习框架,通过MHA-preconv模型(CNN+Transformer)实现98%准确率的基因预测,并基于FuncPred-CB模型(BERT+CNN-BiLSTM)在抗癌肽(ACP)和抗菌肽(AMP)识别中分别达到92%/96%的准确率。该多任务融合架构显著提升了功能肽筛选效率,为肿瘤治疗和感染控制提供了新型计算工具。

  
引言
功能肽尤其是抗癌肽(ACP)和抗菌肽(AMP)因其在肿瘤治疗和免疫防御中的重要作用成为研究热点。传统实验鉴定方法存在耗时久、成本高、通量低等局限,而现有计算方法在特征表征和跨任务预测能力方面存在不足。GP2FI框架通过整合基因预测模型MHA-preconv与功能肽识别模型FuncPred-CB,构建了端到端的深度学习解决方案。
方法
GP2FI采用两阶段深度学习架构。MHA-preconv模型首先从基因组序列中提取开放阅读框(ORF),通过六类手工特征(单密码子使用度、双密码子使用度、翻译起始位点TIS、ORF长度、GC含量、碱基组成)与独热编码融合,经CNN模块提取局部模式后,由8头注意力机制的Transformer编码器捕获长程依赖关系。FuncPred-CB模型则将翻译后的蛋白序列通过预训练BERT语言模型生成上下文语义嵌入,并行输入CNN通道(3层卷积核)和Bi-LSTM通道,最终通过多层感知器(MLP)实现ACP/AMP双任务分类。模型训练采用Adam优化器,损失函数为二元交叉熵。
结果
在基因预测任务中,MHA-preconv在9个独立物种数据集上平均准确率达97.56%,较Prodigal提升0.02,在100个新基因组子集测试中最高准确率达97.78%。功能肽识别方面,FuncPred-CB在ACP数据集上获得92.49%准确率与94.58% AUC,显著优于ACP-DRL等6种对比方法;在AMP任务中达到95.9%准确率与98.7% AUC,超越AMPPred-MFA等基准模型。理化性质热图分析显示,高等电点(pI)与正电荷序列倾向具有ACP活性,而高疏水性(GRAVY)与芳香性特征则与AMP功能相关。
讨论
GP2FI的创新性体现在三方面:首次将Transformer架构用于ORF特征提取,突破传统方法对手工特征的依赖;通过预训练语言模型实现多肽序列的语义表征;双通道设计兼顾局部结构与全局上下文建模。当前局限在于未涵盖翻译后修饰与非核糖体肽合成途径,后续将引入联合训练实现真正端到端流程。
结论
该研究构建的多任务深度学习框架GP2FI,在基因预测与功能肽识别领域展现出卓越性能,为高效发现新型抗癌与抗菌肽提供了可靠的计算基础,对推进精准医疗与抗感染治疗具有重要实践价值。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号