
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ProtPhage:基于深度学习的噬菌体病毒蛋白识别与功能注释新框架
【字体: 大 中 小 】 时间:2025年06月17日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对抗生素耐药性病原体威胁,开发了基于ProtT5蛋白质语言模型和不对称损失函数(ASL)的深度学习框架ProtPhage,显著提升噬菌体病毒蛋白(PVPs)识别精度,在"minor capsid"等少数类识别中F1值较现有最佳模型提高33.07%,为噬菌体治疗提供新型计算工具。
噬菌体治疗的曙光与挑战
在抗生素耐药性危机日益严峻的当下,噬菌体——这种专一感染细菌的病毒,正成为对抗"超级细菌"的新希望。然而,噬菌体疗法的成功关键取决于对其病毒蛋白(PVPs)的精准识别,这些蛋白如同噬菌体的"分子钥匙",主导着宿主识别、附着和遗传物质注入等关键过程。传统质谱和测序技术虽可靠但效率低下,而现有计算方法如PVP-SVM、DeePVP等又受限于特征稀疏性和类别不平衡问题,特别是对"minor capsid"等少数类识别准确率不足50%。
深圳大学计算机与软件学院的研究团队在《Briefings in Bioinformatics》发表的研究中,提出了革命性的ProtPhage框架。该系统创新性地融合蛋白质语言模型ProtT5和不对称损失函数(ASL),在七类PVP功能注释任务中整体F1值达0.9686,对低相似度序列(<40%)的识别准确率仍保持80.27%,较传统方法提升超过25%。
技术方法精要
研究采用三步策略:(1)使用Prodigal工具将噬菌体基因组翻译为蛋白质序列;(2)通过ProtT5模型生成1024维上下文感知的蛋白质嵌入;(3)构建含ASL函数的CNN分类器,其中卷积层采用32个3×1核,通过调整γpos
/γneg
参数(最优0/4)平衡类别权重。实验数据包含35,213个PVP和46,883个非PVP序列,按时间(2020年12月为界)、序列相似度(0.4-0.9)和失衡比(1-9倍)分层验证。
突破性研究结果
性能全面超越现有技术
在时间划分测试集上,ProtPhage的准确率(0.9717)和F1值(0.9673)均显著领先,较次优模型PhaVIP提升4.67个百分点。t-SNE可视化显示ProtT5嵌入能清晰分离七类PVP,而传统BLOSUM64特征则存在严重重叠。
攻克低相似度难题
当训练-测试集序列相似度降至40%时,模型仍保持0.7985的F1值,远超phANNs(0.5076)。这表明ProtT5能捕捉超越序列同源性的功能保守域,如尾部纤维蛋白的受体结合模块。
失衡数据稳健性
在9倍失衡比的极端条件下,ASL函数使"minor capsid"的F1值稳定在0.9189,较标准交叉熵损失提升11%。雷达图显示七类PVP的预测性能波动小于5%,证明ASL有效缓解了模型偏见。
实际应用验证
在分枝杆菌噬菌体PDRPxv的107个蛋白中,ProtPhage准确识别全部12个实验验证的PVP,并正确注释8个功能类别。进一步将预测的尾部纤维蛋白输入宿主预测模型,成功锁定大肠杆菌和铜绿假单胞菌的感染特异性。
开启计算噬菌体生物学新纪元
该研究通过三大创新树立了新标杆:首先,ProtT5嵌入首次将蛋白质语言模型引入PVP识别,突破传统k-mer特征的局限性;其次,γneg
=4的ASL函数为生物医学中的类别失衡问题提供普适解决方案;最后,模块化架构支持未来扩展至新发现的PVP类型。
当前局限在于训练数据偏重于已深入研究噬菌体科,且对超异源序列(<30%相似度)的识别仍有提升空间。研究者建议通过建立社区注释平台和整合结构特征来持续优化。随着微生物组学发展,这套框架有望应用于宏基因组数据挖掘,为揭示病毒-宿主互作网络提供强大工具,加速抗菌药物的理性设计。
生物通微信公众号
知名企业招聘