
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度学习的VirulentHunter工具:突破同源限制的毒力因子预测与分类新方法
【字体: 大 中 小 】 时间:2025年06月17日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对现有毒力因子(VF)识别方法依赖同源比对、难以发现新型VF且缺乏功能分类的瓶颈,开发了基于ESM2预训练模型微调的深度学习框架VirulentHunter。该工具通过整合多源数据库构建非冗余VF数据集,实现VF的高精度识别(独立测试集AUC达0.947)及14类功能分类(平均F1-score 0.704-0.946),在低同源性VF检测中表现突出。应用案例揭示了结核分枝杆菌与鸟分枝杆菌的VF谱差异,并在IBD患者肠道菌群中发现免疫调节相关VF的耗竭,为病原机制研究和疾病诊疗提供新视角。
微生物致病性的核心在于毒力因子(Virulence Factors, VFs),这些由病原体分泌或表达的分子能帮助其定植宿主、逃避免疫并获取营养。尽管高通量测序技术极大拓展了微生物组研究的广度,但传统基于同源比对的VF识别方法(如VFDB、Victors数据库)存在明显局限——它们无法有效识别缺乏已知同源序列的新型VF。更关键的是,现有机器学习方法(如MP4、VF-Pred)多聚焦于VF的二元判别,忽视了对毒素、黏附素、分泌系统等功能类别的精细划分,而这恰恰是理解病原体-宿主互作机制的关键。
针对这一双重挑战,华东师范大学等机构的研究团队开发了VirulentHunter。这项发表于《Briefings in Bioinformatics》的研究创新性地将蛋白质语言模型ESM2(esm2.t30_150M_UR50D)与低秩自适应(LoRA)微调技术相结合,构建出首个能同步实现VF识别与功能分类的深度学习框架。通过整合VFDB、Victors和BV-BRC三大数据库,研究者构建了包含30,483个非冗余VF的数据集,并采用序列/结构双重聚类策略将VF注释扩展至14个功能类别。
关键技术方法包括:1) 使用DIAMOND和TM-Vec进行VF类别标签传播;2) 采用LoRA微调ESM2模型并添加分类头;3) 针对类别不平衡问题引入Focal Loss函数;4) 分析93株鸟分枝杆菌(M. avium)和88株结核分枝杆菌(M. tuberculosis)基因组;5) 处理220例炎症性肠病(IBD)患者及健康人肠道宏基因组数据(来自Lloyd-Price队列)。
统一公共毒力因子数据库增强模型训练
研究团队建立了一套严格的数据标准化流程:通过CD-HIT去除冗余序列后,采用80%序列相似度和80%覆盖度的DIAMOND聚类,结合TM-Vec结构相似性检测(阈值0.9)进行跨数据库注释整合。最终构建的VF库中,效应蛋白分泌系统(25.67%)、免疫调节(15.12%)和黏附(14.1%)构成前三大类别,而90.1%的VF仅关联单一功能类别。为构建负样本集,研究者从Swiss-Prot筛选含"NOT Virulence"等关键词的30,215条非VF蛋白,其长度分布与VF组匹配(50-2000氨基酸)。
VirulentHunter在VF识别中的比较分析
在10折交叉验证中,VirulentHunter的ACC(0.934)和MCC(0.869)显著优于VirulentPred 2.0、DeepVF等现有工具。特别在低同源序列(<40%相似度)识别方面,其性能波动幅度仅为其他方法的1/3。ROC曲线显示AUC值达0.947,较MP4(0.641)和DeepVF(0.562)提升47.76%-68.37%。消融实验证实,ESM2微调步骤使模型能生成更具判别力的蛋白嵌入特征。
多类别VF分类性能评估
相较于BLAST和ESM2+XGBoost基线方法,VirulentHunter在14类VF分类中展现全面优势。微平均F1-score达0.874,对低同源序列(<40%)的分类准确率保持0.812。值得注意的是,训练样本量<2000的类别(如侵袭素、铁摄取)在低同源条件下性能下降15%-20%,提示数据量仍是小类别分类的制约因素。
揭示分枝杆菌种间VF谱差异
对181株分枝杆菌的全基因组分析发现:结核分枝杆菌平均携带1227个VF,显著多于鸟分枝杆菌(1198个,P<0.01)。具体而言,结核分枝杆菌富集黏附(P=3.2×10-5
)、效应蛋白分泌系统(P=1.8×10-4
)和免疫调节相关VF(P=7.3×10-3
),而鸟分枝杆菌更多携带生物膜形成(P=4.1×10-3
)和运动性相关VF(P=2.9×10-2
)。这种"毒力指纹"的差异与其致病策略一致——前者侧重宿主细胞入侵和免疫逃逸,后者倾向环境适应和胞外生存。
IBD患者肠道VF组特征
在209个宏基因组样本中,VirulentHunter鉴定出64,642个VF(42.21%为同源未知型)。与健康人相比,克罗恩病(CD)和溃疡性结肠炎(UC)患者的VF比例显著升高(P<0.01)。差异分析发现:29个VF在两种IBD中共同异常,其中19个上调VF主要涉及生物膜形成(如eps基因簇)和免疫调节(如tgf-β抑制因子),10个下调VF多与免疫稳态维持相关。传统BLAST方法未能检出这些差异,凸显深度学习模型在宏基因组功能挖掘中的独特价值。
这项研究通过三方面创新推动领域发展:技术层面,首次实现VF的端到端识别与分类;应用层面,建立分枝杆菌毒力谱分析框架并揭示IBD相关VF特征;理论层面,证实蛋白质语言模型能捕捉超越同源关系的功能信号。局限性在于部分VF类别训练数据不足,未来可通过整合AlphaFold2预测结构等跨模态信息进一步提升性能。研究者已开源代码并部署在线平台(http://www.unimd.org/VirulentHunter),该工具在抗生素靶点发现、疫苗设计和微生物组干预等领域具有广阔应用前景。
生物通微信公众号
知名企业招聘