ProkBERT PhaStyle:基于预训练基因组语言模型的精准噬菌体生活方式预测
《Bioinformatics Advances》:ProkBERT PhaStyle: Accurate Phage Lifestyle Prediction with Pretrained Genomic Language Models
【字体:
大
中
小
】
时间:2025年11月10日
来源:Bioinformatics Advances 2.8
编辑推荐:
本研究针对噬菌体生活方式(溶原性/溶菌性)预测中存在的片段化序列识别难、计算效率低、对新噬菌体泛化能力差等问题,开发了基于预训练基因组语言模型(DNABERT-2、Nucleotide Transformer、ProkBERT)的新方法ProkBERT PhaStyle。该方法无需复杂预处理流程或人工标注数据库,直接对核苷酸序列进行分析,在BASEL集合、极端环境噬菌体和Escherichia噬菌体测试中表现出优于BACPHLIP、DeePhage、PhaTYP等现有工具的准确性和推理速度,特别在短片段(500bp)和未见样本预测场景下优势显著,为生态学和临床应用提供了高效解决方案。
在微生物研究领域,噬菌体作为细菌病毒扮演着双重角色:烈性噬菌体(virulent phage)能通过裂解循环快速清除病原菌,为抗生素替代疗法提供希望;温和噬菌体(temperate phage)则具备溶原能力,可整合至细菌基因组并介导基因转移,直接影响细菌进化与致病性。然而,当前噬菌体生活方式预测技术面临三重挑战:宏基因组/病毒组组装产生的序列往往高度片段化(≤10kb),环境噬菌体多样性认知不足,而依赖数据库比对的传统方法(如BACPHLIP、PhaTYP)存在更新滞后、计算开销大、对未知噬菌体泛化能力弱等局限。
为突破这些瓶颈,匈牙利研究团队在《Bioinformatics Advances》发表研究,创新性地将自然语言处理中的Transformer模型应用于噬菌体基因组分析。研究团队对三种基因组语言模型(DNABERT-2、Nucleotide Transformer和专为微生物序列设计的ProkBERT)进行微调,构建了名为ProkBERT PhaStyle的新型预测工具。该工具通过直接解析核苷酸序列实现端到端分类,无需蛋白质注释或复杂数据库检索,在保持高精度的同时显著提升计算效率。
关键技术方法包括:使用平均核苷酸一致性(ANI≥80%)严格划分训练集与测试集以模拟真实场景;构建BASEL集合(105个大肠杆菌噬菌体)、极端环境噬菌体集合(深海底、酸性环境等)和Guelin集合(96个Escherichia噬菌体)作为基准数据集;采用局部上下文感知(LCA)k-mer标记化策略处理序列;通过加权投票算法整合短片段预测结果;在统一硬件环境下(NVIDIA Tesla A100 GPU)对比推理速度。
在BASEL集合测试中,ProkBERT-mini在500bp片段上达到0.88准确率(MCC 0.75),优于DNABERT-2(0.83)和PhaTYP(0.87)。当序列长度增至10000bp时,其准确率提升至0.96(MCC 0.93),显示模型能有效利用更长上下文信息。特别在严格排除训练集中Escherichia相关噬菌体的设定下,ProkBERT仍保持领先,证明其强泛化能力。
针对深海底、高砷环境等特殊生态来源的噬菌体,ProkBERT-mini在500bp片段上实现0.89准确率(敏感性0.99),显著优于PhaTYP(0.77)。当片段长度增加至10000bp时,所有模型性能接近完美,但ProkBERT仍以0.98准确率领先,证实其对非典型噬菌体的识别鲁棒性。
在Guelin集合的跨属测试中,ProkBERT-mini在严格排除训练集相似序列的条件下,对500bp片段分类准确率达0.89,而标准训练设定下提升至0.93。这表明即使面对进化距离较远的噬菌体,模型仍能通过预训练获得的序列模式进行有效推断。
速度测试显示ProkBERT-mini-long仅需132秒完成1000条序列分析(0.52 MB/s),较DNABERT-2(2-3.8倍耗时)和数据库检索类工具(PhaTYP需2718秒)具有明显速度优势。这种效率提升源于其紧凑的模型结构(2000万参数)和优化的标记化策略。
研究结论指出,ProkBERT PhaStyle的成功证实了预训练语言模型在微生物基因组分析中的潜力。其核心价值在于将复杂生物学问题转化为可扩展的序列分类任务,通过转移学习范式适应数据稀缺场景。尽管当前模型尚无法捕获完整基因组结构信息,且依赖GPU计算资源,但其在短片段分类、极端环境样本识别和计算效率方面的突破,为宏基因组研究提供了新的技术路径。未来工作可聚焦模型可解释性提升和多任务学习框架扩展,进一步推动人工智能在微生物生态学研究中的深度应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号