《Brazilian Journal of Microbiology》:An integrative bioinformatics framework for functional annotation and prioritization of hypothetical proteins in Bacillus thuringiensis relevant to biological pest control
编辑推荐:
苏云金芽孢杆菌是一种被广泛应用的生物防治制剂,其基因组中存在相当比例被注释为假定蛋白的编码序列,这限制了功能解释,并阻碍了其在生物技术与遗传工程中的开发利用。研究人员在此提出了一种可复现的整合生物信息学工作流程,用于系统性注释并优先筛选3种苏云金芽孢杆菌血清型
苏云金芽孢杆菌是一种被广泛应用的生物防治制剂,其基因组中存在相当比例被注释为假定蛋白的编码序列,这限制了功能解释,并阻碍了其在生物技术与遗传工程中的开发利用。研究人员在此提出了一种可复现的整合生物信息学工作流程,用于系统性注释并优先筛选3种苏云金芽孢杆菌血清型——Kurstaki、Pakistani和Toumanoffi——中的假定蛋白。该流程整合了基于共识的功能注释、毒力相关预测、亚细胞定位分析、病原体富集统计以及结构感知型优先级排序。通过序贯筛选,初始的2,052个假定蛋白被缩减为11个由收敛性计算证据支持的非冗余候选蛋白。被优先筛选的蛋白包括SGNH/GDSL水解酶、铁-硫簇(Fe–S)修复蛋白、HNH核酸酶、转录调控蛋白以及可能与胁迫适应和宿主相关过程有关的包膜相关蛋白。定位分析鉴定出胞外、膜相关和细胞质候选蛋白,提示其可能参与互补性适应功能。基于理化稳定性、拓扑相关特征和对接适配性标准开展的结构优先级排序,进一步识别出6种具备良好特征的蛋白,可用于后续结构与功能分析。本研究并非对其生物学功能作出确定性判定,而是提供了一个可迁移的计算框架,用于降低假定蛋白的功能不确定性,并为Bacillus属及相关细菌系统中的功能基因组学与生物技术应用提供理性候选筛选依据。
该文发表于《Brazilian Journal of Microbiology》,聚焦于苏云金芽孢杆菌(Bacillus thuringiensis,Bt)基因组中大量“假定蛋白”长期难以解释的核心问题。Bt作为全球应用最广泛的微生物杀虫剂之一,传统研究多集中于伴胞晶体毒素Cry和Cyt等经典杀虫因子,但随着基因组资源迅速积累,研究人员发现大量编码序列仍停留在“假定蛋白”层面,缺乏实验功能注释。这种注释缺口不仅限制了对Bt生态适应性、宿主互作能力和辅助毒力因子的系统认识,也妨碍了这些潜在功能元件在生物技术、菌株优化和遗传工程中的开发。尤其是在Bt具有广泛环境适应性、可产生抑菌、抑真菌、抗生物被膜及促植物生长相关代谢物的背景下,未被解析的假定蛋白很可能构成重要而未开发的功能储备。因此,开展一项能够系统缩小筛选范围、提升注释可靠性、并为后续实验验证提供高价值候选靶标的整合性研究,具有明确的科学意义与应用价值。
针对这一问题,研究人员构建了一个可复现的整合生物信息学分析框架,对3个Bt血清型——Kurstaki、Pakistani与Toumanoffi——中的假定蛋白进行系统注释与优先级排序。研究结论表明,单一预测方法难以有效降低假定蛋白的功能不确定性,而结合功能共识注释、毒力相关预测、病原体富集分析、亚细胞定位、冗余去除以及结构可分析性评估的多层级流程,能够从大规模未注释蛋白中识别出更具生物学合理性的候选集合。最终,研究人员将2,052个初始假定蛋白缩减为11个非冗余优先候选,并进一步筛选出6个适合下游结构与分子对接分析的蛋白。结果显示,这些候选蛋白集中涉及SGNH/GDSL水解酶、铁-硫簇(Fe–S,iron–sulfur)修复蛋白、HNH核酸酶、转录调控因子及包膜相关蛋白,提示Bt的适应性功能版图并不局限于经典Cry/Cyt毒素系统,还可能包含大量与氧化胁迫应答、包膜稳态、环境感知和宿主相关过程相联系的辅助体系。这一工作的重要意义在于,它为Bacillus属及相关细菌假定蛋白的系统解析提供了可迁移的技术路线,也为功能基因组学研究和生物防治菌株的理性开发提供了更聚焦的候选资源。
在技术方法方面,研究人员首先从NCBI获取3个Bt血清型的基因组装数据,提取被注释为假定蛋白或含未知功能结构域(DUF,domain of unknown function)的完整蛋白序列。随后利用PANNZER联合HMMER、SUPERFAMILY、CDART、SMART、InterPro、HHpred和COMER进行共识功能注释,并结合VICMpred、VirulentPred、BTXpred开展毒力相关预测;使用PathFams进行病原体富集分析,借助BLASTp与CD-HIT实施同源性评估和冗余去除;再通过BUSCA、CELLO 2.0、PSLpred、Phobius、PSORTb v3.0及TMHMM、DeepTMHMM、SignalP 6.0、CCTOP分析亚细胞定位与拓扑结构;最后采用ProtParam和整合DockingScore进行理化性质与结构优先级评估,并对6个候选蛋白开展基于AlphaFold/AlphaFold2结构的比较分子对接分析。样本来源为NCBI数据库中的3个Bt血清型基因组。
在研究结果部分,论文首先在“Identification and filtering of hypothetical proteins”中说明,通过对3个血清型进行系统筛查,共识别出2,052个假定蛋白或含DUF的蛋白,其中Toumanoffi为593个、Pakistani为767个、Kurstaki为692个。随后依次施加功能共识注释、毒力相关预测、病原体富集分析、冗余去除和结构优先级筛选条件,将候选集逐步缩小。初步功能注释得到181个具有共识支持的蛋白,进一步毒力相关预测保留56个候选,PathFams富集分析后减至14个显著富集蛋白,最后通过CD-HIT以≥90%序列一致性聚类获得11个非冗余蛋白实体。这一结果表明,整合式筛选流程具有较高选择性和较强约束能力,能够从庞大的未注释蛋白池中提炼出极少数更可信的功能候选。Pakistani血清型拥有最多可稳定注释的候选,提示不同血清型之间在可解析假定蛋白比例上存在差异。
在“Functional annotation and domain signatures”部分,研究人员指出,优先候选蛋白表现出明显的功能多样性,包括水解酶、氧化还原酶、核酸酶、转录调控蛋白、毒素-免疫相关蛋白及包膜相关因子。多平台注释结果之间具有较强一致性,支持该策略的稳健性。研究中最反复出现且富集信号最强的功能类群之一是SGNH/GDSL水解酶;另一类重要候选是铁-硫簇修复蛋白,其log
2倍数变化较高且Q值显著,提示其可能参与氧化胁迫适应与氧化还原稳态维持。此外,HNH核酸酶、螺旋-转角-螺旋(HTH,helix–turn–helix)转录调控蛋白、DoxX样蛋白、HAAS结构域蛋白、还原酶/二硫键异构酶以及与Cpx相关的包膜胁迫蛋白也构成重复出现的功能签名。整体上,这些结果提示优先候选蛋白主要关联于适应性、调控性以及胁迫应答途径,而非随机分布的低信息序列。
在“Subcellular localization patterns”中,研究人员通过多工具共识定位,将优先蛋白分布到细胞质、膜相关和胞外3类区室。细胞质蛋白占比最高,其中包括HNH核酸酶、HTH型调控蛋白、与组蛋白乙酰转移酶相关的蛋白以及氧化胁迫相关蛋白;膜相关蛋白则包括HAAS结构域蛋白、DoxX样蛋白、还原酶/二硫键异构酶和包膜相关因子;胞外预测主要对应SGNH/GDSL水解酶。多数优先蛋白不含跨膜螺旋,而胞外蛋白则常具有信号肽,符合分泌相关特征。研究人员据此认为,这些蛋白并非集中作用于单一细胞区室,而可能共同参与胞内适应、包膜稳态与胞外互作等互补性生物学过程。
在“Statistical enrichment and prioritization”部分,PathFams病原体富集分析进一步显示,仅有少数候选同时满足log
2FC>1和FDR校正Q值<0.05的显著性标准。SGNH/GDSL水解酶与铁-硫簇修复蛋白在不同血清型中持续位列富集程度最高的候选,显示较高的倍数变化和较低的Q值。部分富集蛋白在去冗余后仍被重复识别,提示这些病原体相关功能签名在蜡样芽孢杆菌群(Bacillus cereus group)内可能具有保守性。该结果为其生物学重要性提供了又一层独立计算支持。
在“Structural prioritization of non-redundant candidates”部分,研究人员在完成功能注释、富集分析和冗余去除后,对11个非冗余蛋白开展结构优先级比较,综合考虑定位特征、拓扑复杂度、序列复杂性、疏水性、理化稳定性及DockingScore。最终,WP_001091101.1、MCR6868317.1、MCR6857976.1、MCR6823244.1、MCR6861676.1和MCR6885802.1共6个蛋白被认定为适合后续结构研究的优先对象。它们兼具较好的病原体富集支持、稳定的定位结果、较低的拓扑复杂性以及更高的结构优先分值。多数高优先级蛋白缺乏跨膜螺旋,定位模式更符合可溶性或胞外构象,从而更有利于下游结构分析。
在“Comparative docking analyses”中,研究人员基于预测功能类别为6个结构优先蛋白选择相容配体,并开展比较分子对接。结合能范围为?2.4至?5.9 kcal mol
?1,显示不同候选之间存在可变的相互作用谱。SGNH/GDSL水解酶与HNH结构域蛋白在结构上表现较为理想,兼具较强富集特征和相对稳定的对接能量分布。独立重复对接获得了较一致的排序模式,说明该比较优先级体系具有一定再现性。不过,作者明确强调,对接结果仅用于支持结构合理性与配体相容性的比较判断,不能视为生化活性或真实功能的直接证据。
在讨论部分,研究人员认为,该研究最重要的贡献在于验证了整合式生物信息学框架在降低假定蛋白功能不确定性方面的有效性。由2,052个初始假定蛋白缩减至11个非冗余候选的过程,体现了该流程在多层筛选中的严格性与区分力。研究还指出,即便在蜡样芽孢杆菌群中一些蛋白具有较高序列保守性,它们在公共数据库中仍常被标注为假定蛋白,这反映出传统基于同源性的注释策略仍存在明显局限。功能层面上,SGNH/GDSL水解酶可能与肽聚糖重塑、脂质修饰和包膜维持相关;铁-硫簇修复蛋白可能与氧化和亚硝化胁迫应答、氧化还原稳态有关;膜相关的DoxX样蛋白、HAAS结构域蛋白、FtsH相关蛋白和二硫键氧化还原酶,则共同指向包膜胁迫应答和蛋白质量控制。与此同时,HNH核酸酶和HTH Myb型调控蛋白提示这些候选还可能参与细菌间竞争、DNA切割系统、信号调控和环境适应。作者同时强调,所有这些解释均基于计算推断,属于具备优先级的生物学假设,而非确证性功能结论。研究局限性主要在于缺乏实验验证,因此未来仍需结合转录组分析、突变实验、生化表征、应激条件表型评估,以及基因组上下文、操纵子结构、质粒定位和邻近基因保守性分析,进一步提升功能解释的生物学可信度。
研究结论部分可译为:本研究表明,基于共识且可复现的整合生物信息学工作流程,能够有效降低苏云金芽孢杆菌假定蛋白的功能不确定性。通过整合结构域验证、同源性推断、毒力相关预测、病原体富集分析、亚细胞定位描绘和结构优先级排序,研究人员将来源于3个Bt血清型的大规模异质性未注释蛋白数据集,逐步收敛为一组在生物学上更合理的候选蛋白。序贯筛选将初始的2,052个假定蛋白及含DUF序列缩减为11个由收敛性计算证据支持的非冗余优先蛋白实体。其中,SGNH/GDSL水解酶、铁-硫簇修复蛋白、调控蛋白和包膜相关因子在不同血清型中反复出现,提示蜡样芽孢杆菌群内可能存在保守的适应性系统。这些发现支持如下观点:Bt的适应性状并不局限于经典Cry/Cyt毒素库,还可能涉及嵌入于基因组假定蛋白组分中的更广泛功能网络。进一步整合理化过滤和比较结构优先级分析后,研究人员识别出6个具有良好计算特征的候选蛋白,适合开展后续结构与功能研究。尽管本研究完全基于计算分析,但该流程为缩小实验搜索空间、支持假设驱动型验证提供了可扩展且可迁移的框架,并有助于弥合基因组信息与功能解释之间的鸿沟,推动Bacillus属及相关细菌基因组中假定蛋白的系统性解析。