基于机器学习预测噬菌体-宿主相互作用的菌株特异性研究
《Scientific Reports》:A machine learning approach to predict strain-specific phage-host interactions
【字体:
大
中
小
】
时间:2025年11月01日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对抗生素耐药菌感染问题,开发了一种基于机器学习(ML)的菌株水平噬菌体-宿主相互作用预测模型。研究人员利用蛋白质-蛋白质相互作用(PPI)特征和实验验证的宿主范围数据,成功构建了针对沙门氏菌和大肠杆菌的预测模型,准确率最高达94%。该研究为精准噬菌体治疗提供了新的生物信息学工具。
在抗生素耐药性危机日益严重的今天,寻找替代疗法已成为全球公共卫生的紧迫任务。噬菌体作为细菌的天然捕食者,在对抗耐药菌感染方面展现出巨大潜力。然而,噬菌体与宿主细菌之间的相互作用极为复杂,即使在同一菌种的不同菌株间也存在显著差异,这为精准预测噬菌体治疗效果带来了巨大挑战。
传统上,预测噬菌体-宿主相互作用主要基于分类学泛化假设,即认为同一属或种的细菌对特定噬菌体的敏感性相似。但实际研究表明,同一细菌物种内的遗传多样性会导致菌株间抵抗表型的差异。噬菌体感染的成功与否取决于多种生物学机制的平衡,包括噬菌体吸附受体识别、细菌防御系统(如CRISPR-Cas、限制性内切酶系统)以及噬菌体的抗防御策略等。
为了突破这一瓶颈,来自PhageLab Chile SpA的研究团队在《Scientific Reports》上发表了一项创新性研究,开发了一种基于机器学习的菌株特异性噬菌体-宿主相互作用预测方法。该研究通过整合蛋白质-蛋白质相互作用预测、实验验证的宿主范围数据和多组学分析,建立了高精度的预测模型。
研究团队采用了几个关键技术方法:首先通过Illumina测序平台获得高质量的噬菌体和细菌基因组,利用生物信息学流程进行基因组组装和注释;其次采用蛋白质结构域相互作用评分方法,通过HMMER比对PFAM数据库并利用PPIDM数据集评估相互作用的可靠性;然后构建沙门氏菌和大肠杆菌的pangenome(泛基因组)来识别基因簇;最后应用多种机器学习算法(随机森林、支持向量机、梯度提升和k近邻算法)建立预测模型,并使用10折交叉验证进行性能评估。
研究人员评估了10个沙门氏菌和3个大肠杆菌噬菌体对544个沙门氏菌和218个大肠杆菌分离株的感染模式。通过6小时共培养实验测定生长抑制率,以15%为阈值将结果二值化为敏感和耐药。沙门氏菌噬菌体的敏感分离株比例在25%至63%之间,大肠杆菌噬菌体在29%至42%之间,反映了测试噬菌体宿主范围广度的差异。
13个噬菌体基因组被分类为6个不同的病毒分类群,包括Ounavirinae亚科、Drexlerviridae科、Strabovirida科等。通过平均核苷酸一致性(ANI)和平均氨基酸一致性(AAI)比较发现,某些噬菌体如CBDS-05、CBDS-04和CBDS-03共享98-99%的核苷酸序列,而L8、STM23和M7仅有2-8个核苷酸差异。
沙门氏菌pangenome包含18,053个基因,大肠杆菌pangenome包含19,561个基因。通过蛋白质结构域相互作用分析,平均32%和46%的基因簇与至少一个噬菌体具有正相互作用评分,这些评分被用作机器学习模型的特征。
基于基因簇相互作用评分构建的机器学习模型在预测沙门氏菌噬菌体-细菌相互作用方面表现出色。最佳模型配置的准确率在78%至92%之间,受试者工作特征曲线下面积(AUROC)在74%至98%之间。其中噬菌体M7的模型表现最佳,准确率和F1-score均最高。
尽管大肠杆菌噬菌体的实验数据量较少,但构建的机器学习模型仍显示出良好的预测能力。AUROC值在91%至98%之间,其中CBDS-07噬菌体的模型达到了94%的最高准确率。
研究人员构建了沙门氏菌-大肠杆菌多物种pangenome,包含29,687个基因簇。通过假设无交叉感染性来增加负相互作用数据,多物种pangenome在大多数情况下提高了模型的准确率和AUROC得分。
通过分析机器学习模型中最重要的基因特征,研究发现菌毛蛋白、ABC型转运系统和转录调控因子在区分敏感和耐药菌株中起关键作用。这些发现为理解噬菌体-宿主相互作用的分子机制提供了新见解。
研究结论表明,基于蛋白质-蛋白质相互作用的机器学习框架能有效预测菌株水平的噬菌体-细菌表型。该方法克服了以往仅在物种水平进行预测的局限性,实现了更高的预测精度。值得注意的是,噬菌体基因组突变会显著影响模型预测性能,特别是位于宿主识别相关蛋白中的突变。
该研究的创新之处在于将实验验证的表型数据与基因组特征相结合,建立了可靠的预测模型。相比之前的研究,本方法考虑了细菌和噬菌体基因组中编码的完整基因组特征集合,而非仅关注少数已知参与相互作用的基因组特征。
然而,研究也发现五个沙门氏菌噬菌体能够感染大肠杆菌分离株,显示出一定程度的多价性,这表明在应用多物种方法前需要额外的宿主范围分析。未来研究可通过扩大实验数据集规模、结合其他基因组特征(如基因存在-缺失模式、单核苷酸多态性和防御系统)来进一步提高模型的预测能力和普适性。
这项研究为精准噬菌体治疗提供了重要的生物信息学工具,有望在食品工业、水产养殖和人类健康等领域对抗菌药物耐药性细菌的控制中发挥关键作用。通过机器学习方法识别的关键基因为实验研究提供了有前景的靶点,将推动我们对噬菌体-宿主相互作用分子机制的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号